业务挑战:全国近 10 亿用户,每天产生大量数据
中国移动服务的数亿用户每天都会产生海量的数据,如何突破超大规模的数据里面挖掘出有用的信息,然后应用到金融风控场景是企业面临的重大挑战。基于单一的手机号维度去提取特征也缺乏全局视角,因此需要搭建一套图计算开发平台,在此基础上进行数据分析,算法开发和建模,基于多维度信息制作风控模型综合评估用户风险系数,达到高效、全面、精准识别欺诈交易的目的。
中国移动以消费金融为切入场景,基于通信用户通话、短信、设备指纹等多维度信息,构建用户关系网络;在此基础上利用鲁汶(Louvian)、标签传播(LPA)等算法进行用户社区发现得到用户社区信息,再结合个体停机预警、设备异常等多个模型,开发群体停机预警、群体设备异常监控、群体居住地/工作地异常变动、群体羊毛党预警、共债风险评估五个模块,为中国移动的金融、互金行业客户提供金融助贷环节中的风险识别、欺诈检测、信用评分、催收分析等服务。
应用场景:
应用1:号码风险分
通过对用户通话、流量、位置、手机行为等异常的分析和监控,在各项优惠推荐活动、卡券发放、用户拉新等活动中,有效挖掘团伙薅羊毛、同一设备挂多手机养号等无效客户,帮助企业识别虚假流量,降低企业营销成本,提高用户体验。
应用2:关联风险分
基于用户通话行为,构建用户关系网络,通过 Louvain、HANP 等社区发现算法挖掘用户社区,再结合多源特征数据,识别用户团伙欺诈风险。业务实践中发现,该数据模型对贷款申请人欺诈风险预测效果显著。
应用3:图神经网络(GNN)
通过用户之间通话数据、用户的身份证和设备以及位置信息这些点归纳出图神经网络聚合模型,用户特征全连接网络的 MLP 模型、GCN、GrapSAGE 和 GAT 等模型,主要用于金融风控信用评分卡的场景。
使用收益:数据容量及效率大幅提升,助力业务降低交易风险
中国移动拥有 9 亿多的活跃用户,近千亿用户通信关系,原有的图计算引擎框架需要 5000 G内存,1024 核CPU且在以上数据量下完成一次更新计算超过 48 小时,最高只能实现 300 TPS,达不到项目要求。
「悦数」图数据库不仅能够达到项目千亿级数据高效存储、高并发高可用的需求,而且每月数据导入时间控制在小时级,极大减少了运维及风控的人力及时间成本,有力提升了中国移动的金融、互金行业客户的风控效率,减少可能出现的经济损失。