流式大数据实时处理系统需攻克哪些技术难题？数据分析专业培训

/ 2018-04-17

　　批处理大数据系统和流处理大数据系统是两大大数据处理系统，两者各有优缺点，如批处理系统，虽然可对完整大数据集实现高效的即时查询，但无法查询到最新的实时数据，存在数据迟滞高等问题;流处理大数据系统可以对最新实时数据实现高效预设分析处理模型的查询，数据迟滞低，然而受限于内存容量，系统需丢弃原始历史数据，无法在完整大数据集上支持Ad-Hoc查询分析处理，因此，研发具有快速、高效、智能且自主可控特点的流式大数据实时处理技术与平台是当务之急。

　　研发具有快速、高效、智能且自主可控特点的流式大数据实时处理系统需要攻克以下技术难题：

　　(1)复杂指标的增量计算

　　尽管计数、求和、平均等指标能够依靠查询结果合并实现，然而方差、标准差等大部分复杂指标无法依靠简单合并完成查询结果的融合;当查询涉及热点数据维度及长周期时间窗口的复杂指标时，多次重新计算会带来巨大的计算开销。

　　(2)基于分布式内存的并行计算

　　采用粗放的调度策略会造成内存资源的极大浪费，需研究实现一种细粒度的基于进度实时感知的融合存储策略，以极大地优化和提升融合系统的内存使用效率。

　　(3)多尺度时间窗口漂移的动态数据处理

　　来自业务系统的数据查询请求会涉及多种尺度的时间窗口，每次查询请求都重新计算结果会对系统性能造成极大的影响，需研究实现一种支持多种时间窗口尺度、多种窗口漂移方式的动态数据实时处理方法，以快速响应来自业务系统的即时查询请求。

　　(4)高可用、高可扩展的内存计算

　　基于内存介质能够大大提升数据分析及处理能力，由于其易挥发的特性，一般需要采用多副本的方式来实现基于内存的高可用方案，这使得“如何确保不同副本的一致性”成为一个待解决的问题。此外，在集群内存不足或者部分节点失效时，“如何让集群在不间断提供服务的同时重新平衡”同样是一个待解决的技术难题，需研究分布式多副本一致性协议以及自平衡的智能分区算法，以进一步提升流处理集群的可用性以及可扩展性。

　　以上研发具有快速、高效、智能且自主可控特点的流式大数据实时处理系统需要攻克的技术难题，也是未来大数据处理系统的发展方向，相信在不久的未来，人类的聪明智慧，一定可以攻克这些难题!

(10)

分享至