问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

比Spark快10倍的Hadoop3.0有哪些实用新特性

发布网友 发布时间:2022-04-24 05:15

我来回答

1个回答

热心网友 时间:2022-04-27 10:50

1. Hadoop 3.0简介

Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。

Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和性能方面,对hadoop内核进行了多项重大改进,主要包括:

2.1 Hadoop Common
(1)精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records
(2)Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。(https://issues.apache.org/jira/browse/HADOOP-11656)
(3)Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。https://issues.apache.org/jira/browse/HADOOP-9902

2.2 Hadoop HDFS

(1)HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。(https://issues.apache.org/jira/browse/HDFS-7285)
(2)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已经支持。(https://issues.apache.org/jira/browse/HDFS-6440)

2.3 Hadoop MapRece

(1)Tasknative优化。为MapRece增加了C/C++的map output collector实现(包括Spill,Sort和IFile等),通过作业级别参数调整就可切换到该实现上。对于shuffle密集型应用,其性能可提高约30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841)
(2)MapRece内存参数自动推断。在Hadoop 2.0中,为MapRece作业设置内存参数非常繁琐,涉及到两个参数:maprece.{map,rece}.memory.mb和maprece.{map,rece}.java.opts,一旦设置不合理,则会使得内存资源浪费严重,比如将前者设置为4096MB,但后者却是“-Xmx2g”,则剩余2g实际上无法让java heap使用到。(https://issues.apache.org/jira/browse/MAPREDUCE-5785)

2.4 Hadoop YARN

(1)基于cgroup的内存隔离和IO Disk隔离(https://issues.apache.org/jira/browse/YARN-2619)
(2)用curator实现RM leader选举(https://issues.apache.org/jira/browse/YARN-4438)
(3)containerresizing(https://issues.apache.org/jira/browse/YARN-1197)
(4)Timelineserver next generation (https://issues.apache.org/jira/browse/YARN-2928)

3. Hadoop3.0总结

Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。

Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
用手柄玩实况足球2012, 实况足球12如何进行手柄设置,以及窗口模式的设置? 带娃去感受乡村的夏天,这53条乡村游线要收藏好 一般签名用什么笔 怎么去追女孩的技巧 清朝有多少汉人被封王 《水滴石穿》告诉我们什么道理 重庆有哪些批发市场 重庆有哪些大型市场 重庆最大零食批发市场 hadoop 作业为什么使用虚拟内存 如何提升Hadoop MapReduce性能 hadoop MapReduce 读取配置参数 如何对hadoop平台进行优化和维护 什么样的相机可以把腿拉长 oppo下载轻颜相机怎么没有长腿特效? 华为P30拍照和录像有自动拉长腿的功能吗? 什么相机软件拍照可以把腿拍的又细又长 撒子相机可以瘦腿 长腿 应用 vivo手机自带美颜软件可以长腿瘦身吗 ⅤiⅤ0s10相机在哪里有拉长腿功效 美图t9瘦身功能怎么用 有什么相机软件?可以把腿拉长显得比较瘦 网站都被移动屏蔽了怎么办 如何解决网吧屏蔽网站? 怎样屏蔽一些网站? 如何登陆被屏蔽的网站? 屏蔽的网站怎么上的噢。 怎么查看被屏蔽的网页 屏蔽网的介绍 如何构建最优化的Hadoop集群 hadoop运维的工作内容是什么? hadoop的mapreduce常见算法案例有几种 求解hadoop的文件夹被移动之后需要改哪些参数? 如何配置Hadoop守护进程的运行环境和运行参数 Hadoop 请教学习顺序 提交作业给Hadoop集群怎么解决 hadoop某节点运行较慢,通过什么机制解决 如何让Hadoop结合R语言做大数据分析 LINCOLN是什么牌子的? Lin M是什么品牌 如何对XGBoost模型进行参数调优 描述一下hadoop中,有那些地方使用了缓存机制,分别有什么作用 Lincoln是什么车?介绍一下… 林肯是什么车 林肯牌的车的标志是什么样的 《逃家少奶奶》最新txt全集下载 请问林肯车是怎么样的 《逃家少奶奶》txt下载在线阅读全文,求百度网盘云资源 《逃家少奶奶》最新章节全文阅读免费下载百度网盘资源,谁有?