大数据与Hadoop

发布网友发布时间：2024-10-21 07:00

共1个回答

热心网友时间：2024-10-23 07:42

Hadoop是一个分布式批量处理系统，旨在处理大规模数据集。它由Hadoop Distributed File System（HDFS）、HadoopMapRece编程模型和Hadoop Common三部分组成。Hadoop平台对于操作大型数据集来说是一个强大的工具。为简化Hadoop编程模型的复杂性，出现了多个在Hadoop之上运行的应用开发语言，如Pig、Hive和Jaql。用户还可以使用称为Hadoop Streaming的API以非Java语言编写map和rece函数。Hadoop Streaming允许用户在流中处理数据，实现数据的实时处理。

流是一个通过边缘连接的节点图，每个节点都是一种“运算符”或“适配器”，能够处理流内的数据。节点可以包含输入和输出，也可能包含多个输入和输出。流中的数据在节点之间移动。以一个简单的流图为例，数据可以从文件读取，然后被发送到名为Functor的运算符，用于以某种编程方式转换数据。数据随后传入另一个运算符。在流数据经过Split运算符后，它可能被传入文件接收器或数据库。

IBM InfoSphere Streams（简称Streams）是一个流处理系统，用于处理每秒可能包含数百万个事件的数据流。在Streams中，数据通过能够操作数据流的运算符进行分析，从而触发实时事件，帮助企业即时采取行动，提高业务成果。经过分析后，Streams提供将数据存储至不同位置的功能，或者丢弃被视为无价值的数据。与复杂事件处理（CEP）系统不同，Streams具有更高的可扩展性，支持更大的数据流量，并具有高可用性、丰富的应用程序开发工具包和高级调度等企业级特性。

扩展资料

大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。