传统大数据质量清洗的特点
发布网友
发布时间:2022-04-25 15:43
我来回答
共1个回答
热心网友
时间:2023-05-26 13:49
特点:
包括应用层与存储层;
应用层:包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概 率计算与实体查询模块;
数据解析抽取模块用于对不同数据源的xml文件形式数据进行解析抽取,得到结构化 数据记录,不同数据源的xml文件形式数据为数据集成过程中的不确定数据;
相似连接模块用于对结构化数据记录进行相似连接,即相似度大于设定阈值的两条结构化数据记录为相似数据记录对,该两条相似数据记录对应的id构成相似数据记录id对, 得到相似数据记录id对及其相似度;
相似子图聚集模块用于将所有相似数据记录id对聚集在一起,形成相似连通子图,相 似连通子图中的顶点代表结构化数据记录;
实体采样模块用于对相似连通子图进行多次重复采样,得到若干个实体采样结果;
概率计算与实体查询模块用于计算实体采样结果中每个顶点存在的概率从而完成数 据清洗,根据需求对清洗后的结构化数据记录查询;
存储层:利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据 记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase 对清洗后的结构化数据记录进行存储便于查询。