数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?告诉yunmar吧...
发布网友
发布时间:2022-04-26 10:39
我来回答
共2个回答
热心网友
时间:2022-05-03 21:35
OLAP的核心是"维", 可以说是*分析, 它是让分析人员从不同的角度, 不同的粒度查看数据仓库中的数据, 所以他的实质是查询数据, 但是这个查询也是有技巧的, 需要理解业务, 理解业务之后,提出相应的假设, 然后通过特定维度的数据来验证假设是否正确, 所以OLAP是分析思路是从假设到验证,方法是查询数据, OLAP里的模型是指*数据模型, 通过哪些维度的数据来描述分析对象, OLAP的建模是指选择哪些维度。
而数据挖掘主要不是查询, 而是做更多的计算, 例如分类,回归是拟合计算, 找到标签与其他特征的规律, 形成模型, 数据挖掘算法会有很多迭代计算, 比OLAP的计算要复杂很多, 另外, 数据挖掘做的更多的是探索式的分析, 分析前是没有假设的. 所以数据挖掘往往能发现一些人为经验忽略的因素。
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
广义的数据分析,应当是包含数据挖掘和统计的。数据挖掘是面对海量数据时的有效工具,而数据统计是为分析过程提供可靠模型和结果检验的 有效工具。这两个工具可以用在数据分析中,但不只用在数据分析中。数据分析就是数据到有效信息的过程。
数据统计。专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS。
热心网友
时间:2022-05-03 22:53
数据分析。专注于中小网站分析优化,网站地图、结构优化,SEO。多使用第三方工具如:开源分析模块(BIRT),CNZZ,Google Analytics(以下简称GA)。通过对网站属性数据(如pv, uv, 新用户占比,搜索词,跳出率,蹦失率,访问时长,忠诚度等)的分析,对网站结构、内容进行优化。此方向更偏产品一些,极大的依赖分析经验和对数据的敏感度。
代表人物Justin Cutroni,网站分析领军人物,精通GA/GWO,作有博客Analytics Talk:
国内代表人物宋星,经营网站分析在中国 ,蓝鲸,经营蓝鲸的网站分析笔记: ,经营网站数据分析:
数据挖掘。数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般广度上不及数据分析,但深度上更为深入。使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。
此方向更偏技术一些,代表人物Jeff Hammerbacher,曾经的*首席科学家,曾参与编写《数据之美》
数据统计。专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS。
此方向更偏重数学,尤其是统计学。像哈佛数学毕业的Hammerbacher在这方面也很强。数据统计不局限于互联网,像传统行业尤其是医疗、金融等领域中,用处也是极大。
而OLAP其实是一个建立数据系统的方法,核心思想就是建立*度的数据立方体,以维度(Dimension)和度量(Measure)为基本概念,辅以元数据,实现可以钻取、切片、切块、旋转等灵活、系统、直观的数据展现。这种思想可以被以上三种方向借用,像GA就带有这种风格,数据仓库也经常用到此种模式。
但由于互联网的数据量较大、维度众多,会导致数据爆炸。因此一般会灵活变通,综合使用。严格使用OLAP的一般都是些制造业、零售业等相对传统的行业,作为BI的延伸,对公司决策提供有力支撑。
---------------------------------------------------------------------------------
由于此问题回答的比较早,当时就只考虑了互联网的定义,现在看来很片面。感谢@吕高明 的补充:
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
广义的数据分析,应当是包含数据挖掘和统计的。数据挖掘是面对海量数据时的有效工具,而数据统计是为分析过程提供可靠模型和结果检验的 有效工具。这两个工具可以用在数据分析中,但不只用在数据分析中。数据分析就是数据到有效信息的过程。
转自知乎