2019-07-29
发布网友
发布时间:2022-09-02 17:06
我来回答
共1个回答
热心网友
时间:2024-08-06 16:55
统计学:数据的集中趋势(图片上传不了,请见谅,粗略汇总,如有想法,请下方留言)
[if !supportLists](一)[endif] 数据的集中趋势 :
集中趋势(central tendency)在统计学中是指一组数据向某一中心值拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值,低层数据的集中趋势测度值适用于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心,反之,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
[if !supportLists]1.[endif] 众数 (Mode) :
定义: 众数 (Mode) 是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。
相关资料: 众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。在高斯分布中,众数位于峰值,用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合。当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数。例子:{鸡、鸭、鱼、鱼、鸡、鱼}的众数是鱼。众数算出来是销售最常用的,代表最多的。
计算方法: ① 观察法。若数据已归类,则出现频数最多的数据即为众数;若数据已分组,则频数最多的那一组的组中值即为众数。用观察法求得的众数,一般是粗略众数。
金氏插入法,根据计算公式:
或
式中L表示众数所在组的精确下限,U 表示众数所在组的精确上限,fa为与众数组下限相邻的频数,fb为与众数组上限相邻的频数,i为组距。
②皮尔逊经验法
根据计算 公式 :
可求众数。
式中ξ为样本均值, Md 为中数,用皮尔逊公式计算所得众数近似于理论众数,常称为皮尔逊近似众数。众数是皮尔逊(Pearson,K.)最先提出并在生物统计学中使用的,以上是数据出自于离散型随机变量时求众数的方法,对于连续型随机变量ξ ,若概率密度函数为 f ,且 f 恰有一个最大值,则此最大值称为ξ 的众数,有时也把 f 的极大值称为众数; f 有两个以上极大值时,亦称复众数。
Excel:在对应单元格中输入公式:=MODE(B3:B28),众数次数:公式如下:=COUNTIF(B3:B28,众数数值或者众数所在单元格)。
[if !supportLists]2.[endif] 中位数 ( Median ) :
定义: 中位数(又称中值/中点数,英语: Median ),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用 来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)是一种衡量集中趋势的方法。
对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。设连续 随机变量 X的 分布函数 为 ,那么满足条件 的数称为X或分布F的中位数。
特点: ①中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。
②有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
③趋于一组有序数据的中间位置
计算方法: ①对于一在Matlab中,median()函数是求取一组数据的中位数的内置函数,使用规则如下:
M = median(A)
M = median(A,dim)
M = median(___,nanflag)
示例:
1)A = [0 1 1; 2 3 2; 1 3 2; 4 2 2]
M = median(A)
得到结果:M = [ 1.5000 2.5000 2.0000]
2)A = [0 1 1; 2 3 2]
M = median(A,2)
得到结果:
其他: 1)平均数是通过计算得到的,因此它会因每一个数据的变化而变化。
2)中位数是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。
3)众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向。
优缺点:平均数需要全组所有数据来计算,易受数据中极端数值的影响。中位数仅需把数据按顺序排列后即可确定,不易受数据中极端数值的影响。众数通过计数得到,不易受数据中极端数值的影响。在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
[if !supportLists]3.[endif] 平均数 ( mean ) :
定义: 平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。
在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值.
调和平均数≤几何平均数≤算术平均数≤平方平均数(并且只有当所有变量值都相等时,这三种平均数才相等)
分类: ①算术平均数(arithmetic mean):算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。把n个数的总和除以n,所得的商叫做这n个数的平均数。用平均数表示一组数据的情况,有直观、简明的特点,所以在日常生活中经常用到,如平均速度、平均身高、平均产量、平均成绩等等。
优缺点:该方法的优点是计算简单,而缺点是计算平均数时没有考虑到近期的变动趋势,因而预测值与实际值往往会发生较大的误差。通常适用于预测销售比较稳定的产品。如没有季节性变化的粮油食品和日常用品等。
②几何平均数(geometric mean),n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同,几何平均数分为加权和不加权之分。几何平均数多用于计算平均比率和平均速度。如:平均利率、平均发展速度、平均合格率等
1、 简单几何平均法
2、 加权几何平均法
算术平均数,(a+b)/2,体现纯粹数字上的关系,而根号ab,称为几何平均数,这个体现了一个几何关系,作一正方形,使其面积等于以a,b为长宽的矩形,则该正方形的边长即为a、b的几何平均数,中国古代数学书中提到的矩形面积时 往往用长宽的几何平均数来表示。
计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是:1、对比率、指数等进行平均;2、计算平均发展速度;其中:样本数据非负,主要用于对数正态分布。
特点:1、几何平均数受极端值的影响较算术平均数小。2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数。3、它仅适用于具有等比或近似等比关系的数据(它适用于反映特定现象的平均水平,即现象的总标志值不是各单位标志值的总和,而是各单位标志值的连乘积的情形。对于这类社会经济现象,不能采用算术平均数反映其一般水平,而需采用几何平均数)。4、几何平均数的对数是各变量值对数的 算术平均数 。
计算举例:假定某地储蓄年利率(按 复利 计算):5%持续1.5年,3%持续2.5年,2.2%持续1年。请问此5年内该地平均储蓄年利率。该地平均储蓄年利率(利率=利息÷本金÷时间×100%)某银行为吸收存款而提高利息率,五年的利息率分别为3%、4%、5%、6%、7% ,试计算五年的平均年利率(分别按单利和复利两种情况计算)存入10000元 五年后 的实际本利和:单利:10000*(1+3%+4%+5%+6%+7%)=12500复利:10000*(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)=12757.03元单利平均年利率:(3%+4%+5%+6%+7%)/5=5%复利平均年利率:[(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)-1]/5=5.51%(按照此方法计算的复利的平均年利率计算方法为3.44%:
③调和平均数(harmonic mean):调和平均数又称倒数平均数,是变量倒数的算术平均数的倒数。
计算方法:简单调和平均数是算术平均数的变形,它的计算公式如下:
加权调和平均数:加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是相同的,而仅有形式上的区别,即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。因而其计算公式为:
加权调和平均数的应用:在很多情况下,由于只掌握每组某个标志的数值总和(M)而缺少总体单位数(f)的资料,不能直接采用加权算术平均数法计算平均数,则应采用加权调和平均数。
例如:某工厂购进材料三批,每批价格及采购金额资料如下表:
价格(元/千克)(x)采购金额(元)(m)采购数量(千克)(m/x)
第一批3510000286
第二批4020000500
第三批4515000330
合计--450001116
调和平均数可以用在相同距离但速度不同时,平均速度的计算;如一段路程,前半段时速60公里,后半段时速30公里〔两段距离相等〕,则其平均速度为两者的调和平均数时速40公里。
另外,两个电阻R1, R2并联后的等效电阻R:
恰为两电阻调和平均数的一半。
特点:①调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。②只要有一个标志值为0,就不能计算调和平均数。③当组距数列有开口组时,其组中值即使按相邻组距计算,假定性也很大,这时的调和平均数的代表性很不可靠。
④调和平均数应用的范围较小。在实际中,往往由于缺乏总体单位数的资料而不能直接计算算术平均数,这时需用调和平均法来求得平均数。
注意事项:(1)当变量数列有一变量X的值为零时,调和平均数公式的分母将等于无穷大,因而无法求出确定的平均值。(2)调和平均数和算术平均数一样,易受两极端值影响。上端值越大,平均数向上偏离集中趋势就越大。反之,下端值越大,平均数向下偏离集中趋势越大。(3)要注意区分调和平均数和算术平均数的使用条件,因事制宜。
密度,速度,概率都是一种近似概念:A在空间B的平均分布程度,而调和平均数,是为了衡量A在空间B,C的总体平均分布程度(假设B,C不重叠)。而加权调和平均数,就是在B,C里加个权数。
调和平均数与算术平均数的举例分析:
例一水果甲级每元1公斤,乙级每元1.5公斤,丙级每元2公斤。问:
(1)若各买1公斤,平均每元可买多少公斤?
(2)各买6.5公斤,平均每元可买多少公斤?
(3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买几公斤?
(4)甲乙丙*各买1元,每元可买几公斤?
解:例一
(1)(公斤/元)
(2)(公斤/元)
(3)(公斤/元)
[if !supportLists](4)[endif](公斤/元)
考虑一次去便利店并返回的行程:
去程速度为30 mph,返程时交通有一些拥堵,所以速度为10 mph,去程和返程走的是同一路线,也就是说距离一样(5英里)
整个行程的平均速度是多少?如果不假思索地应用算术平均数的话,结果是20 mph((30+10)/2)。但是这么算不对。因为去程速度更快,所以你更快地完成了去程的5英里,整个行程中以30 mph的速度行驶的时间更少,以10 mph的速度行驶的时间更多,所以整个行程期间你的平均速度不会是30 mph和10 mph的中点,而应该更接近10 mph。
为了正确地应用算术平均数,我们需要判定以每种速率行驶所花的时间,然后以适当的权重加权算术平均数的计算:
去程:5 / (30/60) = 10分钟
返程:5 / (10/60) = 30分钟
总行程:10 + 30 = 40分钟
加权算术平均数:(30 * 10/40) + (10 * 30/40) = 15 mph所以,我们看到,真正的平均速度是15 mph,比使用未加权的算术平均数计算所得低了5 mph(或者25%)。
那如果用调和平均数呢?
2 / (1/30 + 1/10) = 15
一下子得到了真正的行程平均速度,自动根据在每个方向上使用的时间进行调整。需要注意的是,这里之所以可以直接应用调和平均数,是因为去程和返程的距离是相等的,如果两者距离不等(比如去程和返程走了不同路线),那么需要应用加权调和平均数。在财经上,加权调和平均数可以用于计算组合投资多个股票的市盈率(P/E)。
当然调和平均数还有很多应用场景,比如统计学上的F1评分,就是准确率和召回的调和平均数。
④指数平均数(EXPMA):指数平均数其构造原理是对股票收盘价进行算术平均,并根据计算结果来进行分析,用于判断价格未来走势得变动趋势。
EXPMA指标是一种趋向类指标,与平滑异同移动平均线[MACD]、平行线差指标[DMA]相比,EXPMA指标由于其计算公式中着重考虑了价格当天 [当期]行情得权重,因此在使用中可克服其他指标信号对于价格走势得滞后性。同时也在一定程度中消除了DMA指标在某些时候对于价格走势所产生得信号提前性,是一个非常有效得分析指标。
[if !supportLists]4.[endif]分位数(quantile fractile)
定义: 设连续随机变量X的累积分布函数为F(X),概率密度函数为p(x)。那么,对任意0<p<1的p,称F(X)=p的X为此分布的分位数,或者下侧分位数。简单的说,分位数指的就是连续分布函数中的一个点,这个点的一侧对应概率p。
[if !supportLists]5.[endif]极差(range)
定义:全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。极差不能用作比较,单位不同 ; 方差能用作比较,因为都是个比率。
极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差(Moving Range)是其中的一种。
极差没有充分利用数据的信息,但计算十分简单,仅适用样本容量较小(n<10)情况。
优缺点:它是标志值变动的最大范围。极差也称为全距或范围误差,它是测定标志变动的最简单的指标。换句话说,也就是指一组数据中的最大数据与最小数据的差叫做这组数据的极差。极差英文为range,简写为R,表示为:R=Xmax-Xmin。移动极差(Moving Range)是其中的一种。