数据采集
采集部分使用OGG源端抽取变化数据,然后发送给OGG for BigData目标端,OGG db以JSON格式把数据写入分布式消息队列Kafka。
分布式计算
计算和关联采用分布式计算框架Spark,开发语言使用Java。通过读取Kafka的消息,根据不同的数据操作种类,实时删除、更新、插入新的数据。
分布式存储
分布式存储采用HBase和ElasticSearch。HBase存储合并后的宽表数据。ElasticSearch用来建立查询索引,提高数据查询效率。
数据查询服务
数据查询服务提供RESTful API、gRPC方式的数据查询服务,也可提供数据推送服务。数据查询服务采用基于SpringBoot的微服务框架。查询服务根据传入的查询条件,通过ElasticSearch系统快速找出符合查询条件的RowKey集合,然后通过RowKey从HBase获取数据给客户端。
个人保单大宽表数据实时生成系统
系统实现了一个流式大宽表数据系统,系统实时采集核心系统数据的变化,采用分布式流式处理方式实时关联多表数据,实时处理数据增删改变化事件,并存入MPP数据库供其它程序查询和分析使用。