泰康在线作为一家互联网保险公司,拥有过亿的海量客户群体。对这些客户进行精准营销,或者是保险业务里的风险控制,就需要对客户之间的关联关系、客户与特征标签的关系,进行高效的管理和计算处理。在技术方面也存在类似的事物间关联关系管理的诉求。比如数据治理,泰康需要建立多个系统间的数据血缘关系。应用系统监控也同样需要管理服务器、应用、接口间的相互关联关系。
传统的关系型数据库,在管理深度关联关系方面,存在明显的性能问题。而图数据库在这方面具有天然的优势,能够非常方便地存储实体间的关联关系,并可以进行灵活的扩展。特别是分布式图数据库,能够有效处理海量的关联关系的存储甚至是计算问题。
为了应对不同的业务场景,泰康建立了初步的图计算平台:数据通过 Canal、Kafka、Flink 等组件处理后,进入存储层。存储层由多种存储引擎组成,核心组件是「悦数图数据库」。对外提供的服务方式,有 API 接口和图计算框架 Flink Gelly,分别应用于实时交互和图计算场景。
在实际应用之前,泰康也对悦数图数据库进行了一系列的技术调研。其中包括针对理赔业务数据进行了数据导入、多跳查询的实际测试。
测试数据为 7,000 万理赔数据,包含约 1.5 亿节点、2.1 亿边。按照当时使用的版本情况,实测数据导入速度:点导入速度约 75 万/秒,边导入速度约 62 万/秒。
经过多次测试和数据库选型,泰康最终选择了「悦数图数据库」。悦数根据图数据的特点对数据存储模型、点边分布、执行引擎进行了全新设计,对图的多跳遍历进行了深度优化,能够满足平台的选型要求。
这是基于客户关联关系构建的知识图谱,已经应用于理赔反欺诈场景。通过建立客户与赔案、证件号、手机号、邮箱的知识图谱,我们就可以通过 Flink Gelly 对其进行连通子图的计算,获取有关联关系的理赔客户群。基于不同的业务筛选条件,来发现可疑的理赔欺诈团伙。
上图展示了泰康在系统间的数据血缘关系方面的应用。图示的是电子保单的数据流转链路、产品工厂和核心系统跟电子保单之间的数据关联关系。因为电子保单的数据,来自多个系统,调用关系复杂。通过图谱来展示这些关联关系,可以更方便地定位电子保单错误信息的数据来源,提高开发人员的联调效率。
这是基于悦数的图数据库产品建立的应用服务器、接口之间的关联图谱。基于这些关联关系,泰康构建自己的应用监控系统。有了这些关联关系做基础就可以很方便、直观地管理我们的应用系统,监控相关的异常告警,并在故障根因分析方面提供便利。
由于业务量和用户量的增长,泰康保险对技术和安全都有较高要求。保险业务系统包括保单存储、收付数据存储、理赔/批改/保全业务开展、监管报送等等,都需要稳定的技术底座能持续、低成本、高质量地支撑业务发展,提供需求分析和系统架构能力。
通过采用悦数图数据库作为图技术底座,泰康在线实现了深度关联关系查询性能和稳定性的大幅度提升。另外,图数据库的模型与人脑思考方式接近,能把事物之间的联系自然地关联出来,可以更自然地建模、更灵活地扩展,帮助多个业务建立起立体的知识结构——「终于可以不用再看几十页的文档,就能把多场景、多维度的数据以立体的方式组织起来了」。
用户评价
泰康在线利用「悦数图数据库」在业务应用上进行的一些探索和初步的实践。虽然还只是一个起步,但是让我们感受到了分布式图数据库的巨大潜力。后续我们还会继续扩宽图数据库的应用,包括实时交互场景。目前在使用过程中,悦数图数据库的性能和稳定性都表现很优秀。
--- 泰康在线技术总监 刘翊
公司介绍
泰康在线成立于 2015 年 11 月,是由中国知名保险集团——泰康保险发起成立的专业互联网保险公司,2021 年上半年泰康在线累计服务客户超 1.5 亿人次,保单件数突破 60 亿件。 泰康在线将悦数图数据库用于数据血缘、金融风控、策略营销等。