olap引擎是什么
发布网友
发布时间:2024-09-27 07:55
我来回答
共1个回答
热心网友
时间:2024-10-29 13:10
开源大数据 OLAP 引擎最佳实践
一、开源OLAP综述
如今,开源数据引擎多样,满足不同需求。主要的 OLAP 计算存储一体引擎有 StarRocks、ClickHouse 和 Apache Doris。数据查询系统则以 Druid、Kylin 和 HBase 为主。MPP 引擎包括 Trino、PrestoDB 和 Impala。这些引擎广泛应用于行业。
二、开源数仓解决方案
EMR 整体架构包括 ECS、JindoFS 和数据湖格式,实现成本节约与扩展性提升。Lambda 架构分实时和离线两部分,实时部分基于 CDC、ORTP 数据源进行行为分析,离线部分利用 Hive,通过增量数据库格式或 insert overwrite 实现数据集市。实时数据湖方案支持 PB 级数据,使用 StarRocks/ClickHouse 实现亚秒级查询。
三、ClickHouse 介绍
ClickHouse 为 OLAP 引擎,由 Yandex 开发,支持列式存储、数据压缩与 MPP 架构,提供完备的 SQL 功能。其数据存储格式自带索引,支持多 Key 索引与 Data skipping index,适用于用户行为分析、实时 BI 报表、监控和用户画像。
四、StarRocks 介绍
StarRocks 采用向量化执行引擎,支持 PB 级数据处理,查询速度极快。架构简洁,兼容 MySQL 协议,支持 FE、BE 水平扩展。实现极速分析,适用于全场景,支持明细、聚合、主键和更新模型,提供高并发查询能力。
五、Trino 介绍
EMR 数据湖架构包含 JindoFS 和 ALLUXIO 存储优化器,支持多种计算方式。EMR Trino 特性包括内置 Coordinator HA 和 Worker Label 功能,集成 EMR 弹性伸缩能力,支持多种生态,优化 Parquet/Orc 格式,利用 JindoFS 加速查询。
六、客户案例
在线教育客户改造后,支持 Upsert 场景,实现 Presto 查询明细数据、CK 宽表查询与 BI 系统查询。社交领域客户通过将宽表查询落入 CK、明细表落入 StarRocks,实现复杂查询、报表分析与点查能力,简化数仓运维。电商领域客户将 OLTP 系统过渡至 OLAP,简化系统、提升运维效率并降低成本。