问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

豆瓣图书评分和推荐靠谱吗? —— 一点数据分析的视角

发布网友 发布时间:2022-09-17 23:25

我来回答

1个回答

热心网友 时间:2023-10-18 17:17

        豆瓣读书的评分有非常非常明显的分野,具体是哪个时期我没有详细考证,但豆瓣的老用户,尤其是经常使用豆瓣读书的用户都应该有个类似的体验:某一天,你在豆瓣读书上的新书推荐看到了一本貌似很有意思的,评分很高的书。你把它买回家,读后却非常失望。至此,你突然意识到,某个时期之后出版的新书,它的豆瓣评分都是不可信的。

譬如《未来简史》这本书籍,我之前看过这部书,觉得并不好看,对不起8.5的高分。看了goodreads,发现评分也只有3.69星 ,并不像豆瓣这样高(图一),就国内外对此书评价差别还挺大的。

而且,在亚马逊上还能看到截然相反的短评,有的人觉得这是“靠谱的未来预测”,有的却说这本书籍"哗众取宠,没有科学支撑" (图二、图三)

另一方面,豆瓣上同样8.5分的书籍,比如《九故事》,《悟空传》,《庆余年》,我都觉得挺好看的,goodreads也都达到了4.15星的水平。于是就有疑问,豆瓣书籍的评分是否可靠?会不会存在一些很多书籍的评分不中肯,影响的因素主要是哪些?针对此,我选取了部分不同年代,国内外不同出版社的不同书籍做了对比。

1. 数据概况

选取2001-2017, 国内出版 的书籍。*豆瓣评分人数在2W以上,一方面讨论大家较为熟悉、主流的书籍,另一方面也尽量减少水军等的影响。总共997本。通过借助中信云机器学习平台,我们对其中书籍的评分做了比较和展示,其评分分布图如下(图四):

包含了很多我们耳熟能详的书籍 ,比如围城、肖申克的救赎、百年孤独等等(下图五)。

同时,我们通过应用中信云机器学习平台,对包含中信图书出版社在内的其它出版社出版的小说书籍,做了方差和评级分布图(如下图六所示),我们可以看到,中信小说的评分方范围在7分以上,STD差距主要分布在1.5-1.75之间,那让我们来看分析一下,到底评分的差异来自于什么?

2.评分的差异

2.1 未来简史VS时间简史

以上两本书(图七)的评分为例,两者评分相同,评价人数也很多(6K, 18K),但4星和2星的比例差别很大。什么意思呢?

● 时间简史:大家都觉得不错,所以评分集中在了4星

● 未来简史:同时有不少人觉得不错/较差,在2星和4星有不少的分布。

也就是说, 尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大, 这也正好对应了上面,未来简史出现两种截然相反的热评的情况。

2.2 怎么衡量评分差异

评分分布的差异,可以用方差来衡量,计算方法如下:

也就是计算 评分偏离平均分的程度  。下文使用标准差(STD),方差开方即可。可以做出标准差(STD) - 豆瓣评分(Rating )散点分布图(图九)。为了便于比较,做标准差97%范围线。

可以看到时间简史和未来简史的STD差别确实很大,未来简史的标准差排在前3% ,争议性是巨大的,而时间简史则小很多。那么我们可以设问

这些小说的分数相同,但同样好看/不好看吗?

比如,时间简史和的未来简史分数一样,但他们一样好看吗?

当然不是。

如前面的比较,未来简史虽然评分较高,但其4星/2星和时间简史差别很大。为什么呢?大家可能早有耳闻,看评论也能看到。通常,我们总是在讨论一本书籍评分的高低,只是平均分,当大家看法一致的时候,这个分数会很有参考价值。如果 当评分差异很大(STD很大)的时候,这个分数的作用就有限了。

3.类别的差异

对于同一类别,不同的出版社,评分和标准差之间存在较大的差异,那么,对同一出版社,不同类别的书籍的评分,会有多少种形状呢?我们选取了中信出版社的图书部分做了数据分析,用K-Means,输入数据为四个评分等级的比例。实际可以把类别分得很细,这里简单分成4种,比较有代表性,结果如下(图十、图十一)

需要注意的是,高STD的书籍因为其形状差异很大,并不适用于进行分类判定。

从上图看出,在每个形状下,也能看到STD高/低的书籍,比如人人都该买保险 ,二手时间 等等,综合来看,中信出版的图书在评分的7.6-8.8的书,STD都是比较稳定的,没有波动特别大的情况,所以类别之间的评分差异其实相差也不大。

4. 爆款图书评分的差异

我们针对中信出版社的历年舆情变化,图书爆款做了类比(如图十二)。

爆款数量变化如下图(图十三)

从图十二、图十三我们可以看到,中信出版社历年爆款图书大致呈正态分布,说明使用的数据量基本足够。各个年代的爆款数量并没有一定的规律性。那对应的爆款书籍舆情分布又是怎样呢,如下图十四所示,

上图显示, 中信爆款书籍的STD展示效果主要集中在1.3-1.6之间,对于这部分书籍我们取出部分在图下进行了书籍展示(如图十五)

从上图可以看出, 经典书籍 的评分和STD高度相关,评分高,STD会比较低。也就是说,尽管书籍评分是非常个人化的事情,每个人对书籍的评价会有所差别,但是放到豆瓣的大用户量下,评分的大众性很强,经典书籍的评分STD还是很小的。也就是说,书籍的评分和出版的时间,爆款的程度没有正相关的联系。

5.评价差异最大的书籍是什么?

   从上图我们看到各个评分的STD都有高有低,那么我们看一下STD的最大临界值是怎样的一个情况,从样例中,我们进行了STD差异最大的书籍进行了筛选,如下图所示:

评价差异大的原因可能来自多个方面,这里我们就不进行讨论了。

6.搜索内容相近书籍和评分是否准确?

大家如有看过兰大的高手寂寞之类的书籍,是否会有想继续找一些在内容和评分,以及评级上都能够与之媲美的书籍?豆瓣本身是有推荐机制的,如下图所示:

我们可以看到,豆瓣关联推荐的书籍,在评分、评级、内容上有些和目标书籍相差有些大,为验证评分和评级的相似性,我们在中信云机器学习平台上,对豆瓣图书进行相似度建模,通过word2vec解析,来找到和目标书籍内容,评级,评分等最为接近的书籍。

例如输入硅谷钢铁侠,我们通过对硅谷钢铁侠的数据标签进行建模解析,查出最接近此书内容的词云如下图(图二十一)所示。

我们从豆瓣查出两本书的评价情况,评分和评级构成都是极为相似。

在推荐的时候,查询鞋狗,第一关联也是能看到硅谷钢铁侠名列前茅,豆瓣的推荐和机器学习实测的推荐是相吻合的。

总结

豆瓣的图书评分,大家都知道是显示的平均分,也都能看到分数的分布情况,在大多数情况下,这个平均分是有效的,因为大家的评价较为接近(STD较小),但是很少有人注意到评分的分歧大小(即STD的大小),当看到一部STD很大的书籍, 平均分和我们感受不符时,我们会感到疑惑,进而觉得豆瓣的评分不靠谱,实际上,只是因为人民的评价差异太大(STD太大),使平均分的意义变得有限了而已。

豆瓣的图书推荐,通过对目标图书的内容标签,评分构成和区间等进行综合对比,从而推荐和目标图书最相近的书籍,从目前的机器学习测量样本数据观察,这个评分是比较准确的。

最后,分析有什么疏漏,或者没讲清楚的地方,也欢迎大家指出~

安利一下: 中信机器学习平台 , 有兴趣的朋友可以注册登陆试用一下。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
工科考研50分数学能过国家线吗 数一工科国家线一般多少分 笔记本电脑无线连接epson爱普生打印机wifi怎么连接 爱普生如何无线连接 身份证注销了银行卡还可以用吗 8424西瓜是哪里产的? 一个人开两个支付宝是同一个二维码吗 买个衣服很生气,投诉无门, 拉夏贝尔衣服可以退吗 断桥铝门窗有多少种 全自动洗衣机单脱水后在调到标准洗为什么关不住水? 请教各位大师,这个蟋蟀罐是什么年代的?大概值多少钱 万礼张蟋蟀罐拍卖价 吃巧克力能不能美肤? 姓唐,名字里要有梵字。加什么字好? 苹果6权限设置在哪里 苹果6怎么恢复系统? 苹果6寻手机系统怎么设置 豫大籽石榴是不是软籽的? 63式两栖坦克的特征是什么? 两栖坦克与一般坦克的区别是什么? 两栖坦克采用什么运动方式? 关于两栖坦克都有哪些介绍? 两栖坦克是什么 什么样的书是文史哲类的书籍,那些小说,畅销书等文学作品算不算?能推荐一下文史哲的书籍吗? 最早给风力定级的人是谁? 《乙巳占》主要讲述什么内容? pvc电缆上印字用油墨及稀释剂的一般成分 电线电缆的印字油墨显酸性还是碱性 5-6岁的小女生喜欢什么? 网上买的鱼鳞纹316不绣钢铁锅有涂层吗 新买的不锈钢压力锅使用后出现鱼鳞斑,是什么原因? 带鱼鳞状的铁锅洗不干净 邮局汇款流程 招商银行幸运卡怎么办 异地银行幸运卡信贷怎么办理 如何申请建行幸运卡? 我想办个6000元左右的幸运卡,去银行能办到吗?我没有工作 JJ比赛里的幸运卡如何得到啊 在百度知道里怎样能得到幸运卡,幸运卡怎样用啊? 宝坻区退伍军人事务部带病回乡优待补助的情况是多少 退伍军人考证有补助吗? 天津对五六年参军退伍的老兵有什么待遇? 龙岩市铁塔公司主营业务是什么 求2011~2012晋江上好看的言情文,各种风格都行,越多越好哦~谢谢了~ 校园言情小说,女主角很漂亮但故意装丑的,越多越好 澳洲坚果树修剪技术,在什么季节修剪好 为什么我手机接信息没有提示音? 科二驾考起步技巧 科目二起步先后顺序介绍 梦到寻找一棵散发香味的白桦树什么意思