大数据分析——Apache Doris(六十五)

119 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第19天,点击查看活动详情

  • Doris支持MySQL协议,数据分析师可以直接进行自助取数,一些临时分析需求不需要再将Elasticsearch数据同步到Hive供分析师进行查询。

  • 一些在ES中的明细表我们通过Doris外表的方式暴露查询,大大降低了业务方的查询成本。

  • 同时因为Doris支持Join,原来一些需要查询多个Index再从内存中计算的逻辑可以直接下推到Doris中,提升了查询服务的稳定性,加快了响应时间。

  • 聚合计算速度通过物化视图和列存优势获得了较大提升。

 上线表现

目前已经上线了几十个实时数据报表,在线集群的P99稳定在1s左右。同时也上线了一些长耗时分析型查询,离线集群的P99稳定在1min左右。  

同时我们基于Doris完成了标准化数仓的构建,在数据开发上跑通了一套完整的流程,使我们数据需求的日常迭代更加迅速。

 业务场景

业务场景主要为两大块——传统型的OLAP分析查询场景+星型模型join场景下的OLAP多维分析查询。

 总结和规划

Doris的引入推进了有道精品课数据分层的构建,加速了实时数仓的规范化进程。数据中台团队在此基础上一方面向全平台各业务线提供统一的数据接口,并依托于Doris生产实时数据看板,另一方面定时将实时数仓数据同步至下游离线数仓供分析师进行自助分析,为实时和离线场景提供数据支撑。对于后续工作的开展,我们做了如下规划:

  • 基于Doris明细表生成更多的上层聚合表,降低Doris计算压力,提高查询服务的整体响应时间

  • 基于Flink实现Doris Connector,实现Flink对Doris的读写功能

  • 开发Doris on ES支持嵌套数据的查询