来源:
《信息技术与标准化》2022年第7期
作者:曾小松 张 路
基于特定场景的大数据实时分析平台的设计与实现
为了解决单表数据记录条数在亿级以上的数据实时统计分析问题,针对聚合运算后的结果数据记录数量显著少于原始记录数量的一类特定场景,提出构建大数据实时分析平台的方案。通过对比流式架构、Lambda 架构、Kappa 架构、Unifield 架构等4 种主流数据处理架构的优缺点,提出选择Kappa 架构,并基于Apache Flink 计算引擎来构建大数据实时分析平台,并通过全量数据全运算( 会定期运行)、增量数据实时运算两个流处理过程来实现。该方案设计了3 种运算结果存储方案,以满足不同应用情形下对最终运算结果的查询效率要求。