问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

数据分析之数据分布

发布网友 发布时间:2022-10-10 00:41

我来回答

1个回答

热心网友 时间:2024-07-01 19:13

概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为离散变量概率分布连续变量概率分布

离散型分布:二项分布、多项分布、伯努利分布、泊松分布。
连续型分布:均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

连续型随机变量:若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f(x)称为x的概率密度函数,积分值为X的数学期望

一、离散型分布
(一)伯努利分布
伯努利分布只有两种可能的结果,1-成功和0-失败,具有伯努利分布特征的随机变量X可以取值为1的概率为p,取值为0的概率1-p,其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为:E(X)=1p+0(1-p)=p
方差为:V(X)=E(X²)–[E(X)]² =p–p²

(二)二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果,如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的,前一次投掷的结果不能决定或影响当前投掷的结果,只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:

(三)多项分布
多项分布是二项分布的推广扩展,在n次独立实验中每次只输出k种结果中的一个,且每种结果都有一个确定概率,多项分布给出在多种输出状态的情况下,关于成功次数的各种组合的概率。

举例投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p1,2点出现概率p2,…多项分布给出了在n次试验中,骰子1点出现x1次,2点出现x2次,3点出现x3次,…,6点出现x6次。这个结果组合的概率公式为:

(四)泊松分布
大量事件是有固定频率的。特点:可以预估这些事件的总数,但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

泊松分布是个计数过程,通常用于模拟一个非连续事件连续时间中的发生次数。
主要特点:
1.任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立);
2.经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
3.时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零;

泊松分布即描述某段时间内,事件具体的发生频率。
泊松分布的概率分布函数公式如下所示:

二、连续型分布
(一)均匀分布
均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:

(二)正态分布
正态分布的特征:1.分布的平均值、中位数和众数一致;2.分布曲线是钟形的,关于线x=μ对称;3.曲线下的总面积为1;4.两个正态分布之积仍为正态分布;5.两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2),且其概率密度函数为:

看作是随机变量X实际可能的取值区间(3sigma法则)。

(三)指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔

(四)伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布,即从头开始到第n次事件的发生时间。

(五)共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布,使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布)。

贝叶斯规则:后验分布=似然函数*先验概率分布

(六)贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时,贝塔分布可以给出所有概率出现的可能性大小。
例如 α=0.99,β=0.5,贝塔分布B(α,β)如下图所示:

(七)卡方分布

三、分布之间的关系
(一)伯努利分布和二项分布的关系:
1.伯努利分布是二项分布的单次试验的特例,即单次二项分布试验;
2.二项分布和伯努利分布的每次试验都只有两个可能的结果;
3.二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

(二)泊松分布和二项分布的关系:
以下条件下,泊松分布是二项分布的极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.每次试验的成功概率相同且趋近零,即p→0;
3.np=λ是有限值。

(三)正态分布和二项分布的关系&正态分布和泊松分布的关系:
以下条件下,正态分布是二项分布的一种极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.p和q都不是无穷小

当参数λ→∞的时候,正态分布是泊松分布的极限形式。

(四)指数分布和泊松分布的关系:
如果随机事件的时间间隔服从参数为λ的指数分布,那么在时间周期t内事件发生的总次数服从泊松分布,相应的参数为λt。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
沈阳有哪些家居商场 沈阳都有哪些家居城 沈阳市有多少个家具城 沈阳都有什么家具城 沈阳有多少家家俱商城 沈阳家具地方有哪些 沈阳有哪些大型家居 沈阳美凯龙有什么牌子 沈阳家居市场有哪些品牌 消食片饭前还是饭后吃 数据分布 脸上长有遗传性雀斑,用E光可以完全去掉吗 激光祛斑和强光祛斑哪个更好? 养育孩子为了防备年老的成语 欣峰机械他们家国产的磨粒流体挤压抛光机品质怎么样?去毛刺效果好... 催眠笔记——常用的自我催眠诱导法 精密零件去毛刺哪种的好呢? 压铸工件去毛刺的方法有哪些 哪些抛光方法适用与精密零件的去毛刺 黑暗料理王百吃不腻红烧肉怎么做 百吃不 什么是《南华真经》 有谁知道 哪个基金最近走得比较好 197o年农历正月二十四阳历是几号 农历一九九二年正月二十四日是阳历几几年几月几日 南华真经的译文有木有? 2009年农历正月二十四日换成阳历是几月几日 1981年的正月二十四阳历是几日 独库公路起点和终点是哪里(独库公路起点和终点是哪里地图) 独库公路属于伊犁吗 独库公路在哪个城市,独库公路在哪个地方 含有夕,漫,雨,泽的古诗 《漫成五章·其二》古诗赏析 手抄报我和我的祖国画 我和我的祖国庆国庆手抄报 开店不能犯的三个致命错误是什么? 你自己或见别人在运营工作中犯过哪些错误? 金鱼只喝水能存活吗? 小金鱼只用水 不喂食能养活吗 魔兽世界狂暴战传家宝武器 魔兽求狂暴战小号传家宝选择,及怎样兑换,需要什么,要全要详细 ...世界传家宝(正义和荣誉都算),请给推荐2把适合狂暴战的单手武器吧 妈妈的眼泪湿润了怎么比喻 杰克隽逸有首歌 歌词是妈妈的眼泪是什么歌 WOW DZ传家宝武器的选择及专业问题~各位大神路过还是进来看看吧... 妈妈的眼泪可以化溶岩的歌名是什么 妈妈的眼泪作文450字列题纲 国防科技大学是不是重点大学 上这所大学的步骤是怎么样的 报考国防科技大学有那些步骤和要求? 国防科技大学是重点么?交钱能上么? 中国国防科技大学入校是有怎样的条件呢?