问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

既然Spark比Hadoop性能好很多,Hadoop未来发展方向是什么?

发布网友 发布时间:2022-04-23 08:55

我来回答

2个回答

热心网友 时间:2022-04-14 07:49

Spark已经取代Hadoop成为最活跃的开源大数据项目,但是,在选择大数据框架时,企业不能因此就厚此薄彼
近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的异同
Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务的工具,但确切地说,它们所执行的任务并不相同,彼此也并不排斥
虽然在特定的情况下,Spark据称要比Hadoop快100倍,但它本身没有一个分布式存储系统
而分布式存储是如今许多大数据项目的基础,它可以将 PB 级的数据集存储在几乎无限数量的普通计算机的硬盘上,并提供了良好的可扩展性,只需要随着数据集的增大增加硬盘
因此,Spark需要一个第三方的分布式存储,也正是因为这个原因,许多大数据项目都将Spark安装在Hadoop之上,这样,Spark的高级分析应用程序就可以使用存储在HDFS中的数据了
与Hadoop相比,Spark真正的优势在于速度,Spark的大部分操作都是在内存中,而Hadoop的MapRece系统会在每次操作之后将所有数据写回到物理存储介质上,这是为了确保在出现问题时能够完全恢复,但Spark的弹性分布式数据存储也能实现这一点
另外,在高级数据处理(如实时流处理、机器学习)方面,Spark的功能要胜过Hadoop
在Bernard看来,这一点连同其速度优势是Spark越来越受欢迎的真正原因
实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序,并立即获得反馈
在各种各样的大数据应用程序中,这种处理的用途越来越多,比如,零售商使用的推荐引擎、制造业中的工业机械性能监控
Spark平台的速度和流数据处理能力也非常适合机器学习算法,这类算法可以自我学习和改进,直到找到问题的理想解决方案
这种技术是最先进制造系统(如预测零件何时损坏)和无人驾驶汽车的核心
Spark有自己的机器学习库MLib,而Hadoop系统则需要借助第三方机器学习库,如Apache Mahout
实际上,虽然Spark和Hadoop存在一些功能上的重叠,但它们都不是商业产品,并不存在真正的竞争关系,而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务
例如,Cloudera 就既提供 Spark服务也提供 Hadoop服务,并会根据客户的需要提供最合适的建议
Bernard认为,虽然Spark发展迅速,但它尚处于起步阶段,安全和技术支持基础设施方还不发达,在他看来,Spark在开源社区活跃度的上升,表明企业用户正在寻找已存储数据的创新用法

热心网友 时间:2022-04-14 09:07

Impala比Spark性能还要好,但你看它现在这个鸟样。

认真来讲,Hadoop现在分三块HDFS/MR/YARN,Spark比Hadoop性能好,只是Spark作为一个计算引擎,比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN,Spark也有自己的调度框架,但仍然非常不成熟,基本不可商用。

目前来看,YARN在Hadoop的发展过程中占的比重较多,而且作为一个调度和资源管理框架,它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS,这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。

回到问题,大数据领域,“性能”可能并不是衡量一个大数据组件的唯一标准,安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要,而Hadoop作为大数据领域的核心组件,这些方面肯定都需要考虑,而不单单是性能。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
情侣文案英文高级浪漫87句 Love to the people don't wave.什么意思 gladtomeetyou怎么 gladtomeetyou.怎么回答 2016生肖猴运程 武汉买房88平方满50万落户政策 非武汉市户口在武汉市购买70平方总价50万的商品房,可以转户口吗... 我想在武汉买一套50万左右的新房子,谁能告诉我现在武昌,关山,江夏,有... 支付宝怎么开通步数授权? 总价50万能在武汉买一套两室一天的二手房吗? 板块边界易错处,如冰岛,红海是什么板块与什么板块的边界(多举些例子),是生长边界还是消亡边界. 和女朋友打QQ电话总有微信语音的滴滴声 板块构造学说的应用 美国大数据工程师面试攻略 安装flash总是失败怎么办? 取一个英文名字是关于猫的 可移动核酸检测大巴车上使用负压消毒净化系统有靠谱的厂家推荐吗? 怎样建立文本文当 怎么查询社保卡预留手机号 flash修复电脑管家显示 网络异常,部分修复无法完成。安装显示“您的 microsoft internet explorer …… 怎么创建应用并部署代码 国内现在哪个厂家生产移动核酸检测站是最好的?需要购买 语音版版滴滴打车怎么付钱 杭州南站有移动核酸检测点吗 帮忙起一个关于猫的英文名字 查社保号码打什么电话 出租车司机为什么一边开车拉着客人一边听嘀嘀打车语音? 红海交的保鲜办法? flash打开失败怎么办 spark会代替impala吗 怎么新建一个文本文档? 谁有爱好帮我的小猫起个可爱点的英文名字? 谁知道怎么样新建word文挡? Cloudera CDH Impala本地通过Parcel安装配置详解及什么是Parcel_百度... 怎样的基金才算是“指数”型基金? UC浏览器老是显示flash插件加载失败怎么办 冰岛、红海属于什么边界 大数据分析应该掌握哪些基础知识呢? 求有创意的猫咪的名字,要英文的~在线等,求大神 怎么是指数基金?怎么买指数基金? 为什么电脑视频不能看了?是flash的问题,怎么修复? 怎样在百度文库中建立自己的文集 求经典相声灌口! 什么叫指数基金? flash 升级失败 用金山卫士修复adobe flash player漏洞,怎么总是提示补丁下载失败? 宠物猫的英文名 如何建立可编辑文档 新西兰,印度尼西亚,地中海,日本,喜马拉雅山,冰岛,红海,落基山,安第斯山在哪个板块附近 如何在百度文库建立文档?