发布网友 发布时间:2022-04-22 06:22
共1个回答
热心网友 时间:2023-09-15 20:50
【一】
在这个信息爆炸的时代,我们的周围总是充斥着各种各样的新闻和数据,比如“广东本科生平均月薪7000,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”、“从除夕开始放假会让很多员工觉得浪费一天假期”……面对这些数字时,你是否会在被戳中痛点后默默回一句“我又一次被代表了”或者“哥又拖后退了”?
当然,还有一些所谓的研究结果甚至通过网络被快速传播,成为了人人都知道的“科学”事实:“近视眼戴眼镜会眼球变突”、“家用电子设备辐射大,所以手机不要放床头、电脑一定要用防辐射的机箱,接电话时不要离耳朵太近”、“碱性体质的孕妇更容易生儿子”……这些所谓的“科学”通过“用数字说话”的方式吸引了你的注意力。
可是,客观真实的数字摆在那,我们就能正确认识世界了吗?今天,精读君就为大家推荐一部美国统计专家达莱尔•哈夫的著作《统计数字会撒谎》,看看我们周围的数据中都暗含了哪些*。作者达莱尔是一名自由记者,因其1954年出版的这本精彩、大为畅销的《统计数字会撒谎》而深受数代极客的爱戴。
【二】
“平均年收入10万”,对你来说是什么概念?
作为揭露数据造假的经典工具书,这本《统计数字会撒谎》在50年代一出版,就成为有些人的“心头大患”,他们在全世界对其进行围追堵截,就是因为害怕读者看到书中的*。它诞生之后,不仅被奉为“世界统计学普及读物第一畅销书”、“25本投资经典之一”、“经典社会学读本”,而且被誉为“数据造假曝光宝典”,在世界畅销50年而不衰。
达莱尔用风趣的插图和通俗的语言把高深的统计写得像“故事书”一样精彩,这种独具一格的行文和编排使得此书更具魅力。此外,书中还揭露了大量至今仍被销售员、专家、记者或者广告撰稿人频频使用的“行骗工具”,如:有偏的样本,精心挑选的平均数,遗漏某些重要的数据,混淆因果关系,滥用一维图形等。更为重要的是,达莱尔在书中破解了如何识破虚假统计数据。
下面,我们就来看看,书中到底揭露了哪些会说谎的统计数字。不过,在分享这本书的精华之前,精读君先请大家做个调查:
当某小区的售楼小姐告诉你,他们所售楼盘附近的居民年平均收入大约有10万人民币时,你会作何反应?
【三】
精心挑选的平均数如何误导你?
上文调查中提到的情境,便是书中的一个案例。假如你买下了房子,也许你有那么点势利,当与朋友聊天时,便不经意地流露出你居住的地点:我住在一个相当棒的高收入小区。可当你与小区周围的邻居熟络起来后却发现,大多居民的年平均收入只有2万。这时候你也许会大吃一惊:是售楼小姐撒谎了吗?
其实,售楼小姐并没有撒谎,无论是10万还是2万,它们都是正规的平均数,计算方法也正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。但显然广告商故意混淆了这里的平均数概念,夸大了广告效果。
因为平均数不仅是简单意义上的算术平均数,还包括了中位数和众数。下面精读君就为大家区分一下这几个概念:
算术平均数:又称均值,是将所有数据加总后除以样本数得来的结果(小区所有人的总收入除以人数),也是平常意义上的平均数。
中位数:它指这样一个数,在所有的样本里,一半的值在它之上,而另一半在它之下(小区附近位于中间的、相对较小的收入值)。
众数:在所有样本里出现最多的那个数(小区年收入2万的住户)。
所以,这里的真实情况是,小区的收入是显著偏斜的。你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养老金为生的退休老人,但却有3户邻居是来度周末的百万富翁,就是这3户人家的收入提高了总收入,相应抬高了算术平均数。这样一来,均值达到了绝大多数家庭遥不可及的水平。“某小区住户平均收入为5700美元”的真实含义
因此,这里的“平均数”毫无意义,因为做这样的统计时,我们还需要考虑中位数和众数。当我们被告知某个数是平均数时,除非能说出它的具体种类——均值、中位数、还是众数,否则你对它的具体涵义仍是知之甚少。
这个案例也让精读君想到一个段子:
当比尔•盖茨走进某个普通的酒吧,一瞬间,酒吧里面的所有人都变成亿万富翁(平均数意义上)。
盖茨的资产是几百亿美金,假设这个酒吧里面不到100人,那么当盖茨进入酒吧后,里面的人均财产至少是数以亿计的美金。
所以,“平均数”在某些情况下具有很强的误导性。
【四】
为什么图形也会不靠谱?
有时候,单靠文字来表达统计结果,很难达到广告或宣传的效果,于是人们便利用统计图的视觉冲击来达到目的。那么,直观的统计图,也会不真实吗?下面就来看看精挑细选的统计图是如何欺骗蒙蔽我们的双眼。
这是1938年,美国《丹斯评论》杂志的某个编辑摘录的一张统计图,该图形出现在一则鼓吹华盛顿广告业的广告中,图形的标题是:“*支出急剧上升!”尽管图中的折线与标题中的感叹号遥相呼应,但是折线后隐含的数据却并不乐观,仅仅从1950万美元增长到了2020万美元。而那根从底部激增至顶端的折线,将原本仅仅4%的增长率描绘得仿佛是400%。
后来,《丹斯评论》利用相同的数据绘制了图形的另一版本,标题是:“*支出保持稳定”,于是便出现了下面这张图,此时图中的折线就客观地反映了4%的增长率。
达莱尔在书中总结道:
数据是相同的,所以图形也相同,除了图形给人留下的印象不同之外,没有任何的伪造。
这就是利用统计数据行骗的高明之处,图形中不存在任何形容词和副词来破坏它所具有的客观性幻觉,而且谁也无法指责你。
除了精挑细选的平均数和滥用图表之外,导致统计数字不真实的原因还有很多
【五】
甄别统计数字的真假时要注意什么?
俗话说,魔高一尺,道高一丈。既然统计数字会撒谎,我们就应该提高甄别数据真假的能力。如果你看到“使用多克斯牌牙膏将使蛀牙减少23%”这样的广告,就要注意广告下方是否配有不起眼的小字说明:被测试的用户由32人组成(有些商家甚至直接抹去这样的小字内容)。如果是这样,你就要明白,通过这样不足的样本数据得来的结果是不靠谱的。
就拿前段时间有关双十一的一则新闻为例吧。去年双十一过后,“淘宝天猫双十一退货574亿、退货率超半”的新闻便被闹得沸沸洋洋。那么,这一数据到底有没有价值呢?
首先,看到这个数据时,我们要问几个问题:
这个数据是如何得出的?即数据调查的方式、渠道等选择是否正确?
如果是官方透露出来的数据,用的可能是内部的统计渠道,那便有一定的依据可言。但这篇报道并非出自官方之口,而是来源网络。因此,我们不得不进一步提问。
在没有官方数据的情况下,这篇报道是如何获得574亿这么精准的数据的?
如果是调查得来的结果,那是用什么样的方法调查的。
所调查的样本足够大吗,包含所有类别的人群吗?
很明显,这些背景报道上通通没有告诉我们,因此这个数据的价值可想而知,基本上是没有意义的。
由于篇幅有限,精读君无法将书中的所有案例一一列举,有兴趣的读友可以深度阅读《统计数字会撒谎》。不过,当你下次再看到一些夸张的统计数据时,应该仔细思考数据背后的含义,要知道,统计这种神秘的语言,在一个用事实说话的社会很是吸引人,但有时它却被利用并成为恶意夸大和迷惑他人的工具。
《中国社会学》的小编总结得好:
人人都知数据不会说谎,说谎是来自某些居心叵测的人对数据的故意误读罢了。
你的问题 这里有答案 微信公众号 【精读君】