问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何让Hadoop结合R语言做大数据分析15

发布网友 发布时间:2023-09-13 05:14

我来回答

1个回答

热心网友 时间:2024-12-03 09:37

R语言和Hadoop让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。问题1: Hadoop的家族如此之强大,为什么还要结合R语言?
问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?下面我尝试着做一个解答:问题1: Hadoop的家族如此之强大,为什么还要结合R语言?

a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。
b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。
c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短!
d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化
d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标d2:用Hadoop从海量日志数据中,提取指标数据d3:用R语言模型,对指标数据进行测试和调优d4:用Hadoop分步式算法,重写R语言的模型,部署上线这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?

a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。
b. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA, 朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapRece的并行计算框架,高效地完成计算任务。
c. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapRece并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,最好兼有 “线性代数”,“概率统计”,“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。
d. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持大量的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。
虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择合适的技术,才能真正地“保质保量”做软件。

如何让Hadoop结合R语言?

从上一节我们看到,Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求,自然会有商家填补这个空白。

1). RHadoop

RHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapRece, HDFS, HBase 三个部分。

2). RHiveRHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。

3). 重写Mahout用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。

4).Hadoop调用R

上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

R和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux, Java, Hadoop, R的技术,还要具备 软件开发,算法,概率统计,线性代数,数据可视化,行业背景 的一些基本素质。在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapRece化,软件开发,测试等等。所以,这样的案例并不太多。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
形容啰嗦的成语有哪些? 求音乐。 清晨悄悄的来临,梦就结束一夜的旅行, 睁开朦胧的眼睛,放飞愉 ... 电脑开机屏幕没字,但是有开机声音风扇正常拔掉主机一端也会显示无... ...不开电脑了将CPU拆下来换了硅脂之后电脑就点不亮了请问怎么解决_百 ... 电脑换完硅脂后不开机将CPU拆下来换了硅脂之后电脑就点不亮了请问怎么解... qq群怎么解散(qq群怎么解散不了操作失败) 我的主板是七彩虹战斧C.H61 V21 为什么声音老是会停顿 为什么声音老... 酷睿i32120 +七彩虹战斧C.H61 V21 这个配置 不用独显游戏性能怎样,主流... i7 3770k配什么主板最便宜,要最便宜的,又能搭配gtx560ti,和8G内存的... 七彩虹战斧C.H61 V21产品参数 京东里的动态密码是一直用的还是每次都不一样 ...历史上经常提到的一些地名,请列举每个地方发生的一个历史事件... 伊朗、土耳其、沙特阿拉伯畜牧业世界著名原因是什么 高平陵之变时,曹魏旧部为什么不敢反抗司马懿? 一岁宝宝吃鲨鱼肉可以吗 如何处理羽绒服钻毛问题78 司马懿发动高平陵之变,曾经的曹魏大臣为何不反抗? 棉服钻毛球 怎么办4 华为手机一直重复开机关机怎么回事? 如何找出华为手机拨号图标? 请问三国时魏国发生高平陵政变,大将军曹爽最终放弃抵抗的原因是什么... 怀孕怎么能生儿子,怎么备孕? ...考虑血管间隙,余颅脑MRI平扫未见明显异常。 广州明锐光学仪器有限公司怎么样? 马天宇的博客一直是谁在管理? 东莞背光源电子厂有哪些 But/while/however有多大区别,知道的细说1 华为手机扬声器无声怎么办 氢氧化钠潮解是什么变化?27 什么样的衣品才叫时尚呢?宋妍霏的衣品真的很好吗? 如何用BP神经网络实现预测19 如何具体的做一个基于Hadoop的数据分类/挖掘算法并行化的... 采用什么手段使神经网络预测更加准确5 如何人工神经网络来预测下一个数值3 用matlab中bp神经网络实现由输入值预测输出值的程序33 我要生儿子,比较科学的方法是什么?有没有可靠的方法 请教:我十岁的时候患中耳炎引起右面瘫,十几年了不知还有没可能治... 家人无法成为我的后盾,怎么办? 家人不能成为我们的后盾,怎么办? ...颈部和颅脑平扫的MRI,结果是5,6椎轻微突出, 伊朗,土耳其,沙特阿拉伯畜牧业世界著名原因是什么 土耳其畜牧业发达的自然原因 招商银行的养老产品怎么样? 婚礼摄影师 Brllopsfotografen剧情介绍 索伊冰箱的温度怎么调?10 索伊冰箱温度调节图? 索伊冰箱温度怎么调节26 别人买的元宝纸能往我家车上放吗? 索伊冰箱温度到冬天应该调至几档?(1-7个数字)是不是数字越...54 读“中东位置示意图”,完成4~6题.4.畜牧业在中东的农业生产中占有重要...