任务流转系统开发目的
发布网友
发布时间:2023-01-02 01:37
我来回答
共1个回答
热心网友
时间:2023-10-09 00:03
(1)完整的数据分析系统通常由大量任务单元组成:
shell脚本程序,java程序,maprece程序,hive脚本等。
2)任务单元之间存在时间顺序以及前后依存关系。
3)为了很好地组织这样一个复杂的执行计划,需要一个工作流计划系统来计划执行。
例如,我们可能要求业务系统每天生成20G的原始数据,并且我们需要每天对其进行处理。处理步骤如下:
(1)通过Hadoop将原始数据同步到HDFS
(2)使用MapRece计算框架计算原始数据,并将生成的数据以分区表的形式存储在多个Hive表中
(3)您需要联接Hive中的多个表以获取详细数据Hive大表
4)对详细数据进行复杂的统计分析,以获取结果报告信息;
(5)需要将来自统计分析的结果数据同步到业务系统以进行业务通话。