大模型 + 图算法：双引擎驱动，金融风控进入认知智能时代

上一代风控的核心逻辑是"规则 + 评分卡"：设好阈值、跑好模型、算好分数，然后卡线审批。这套方法在过去十年里解决了大部分标准化场景的问题——个人信贷审批、信用卡反欺诈、基础反洗钱——但面对越来越复杂的关联性风险，它的天花板越来越明显。

担保圈风险传导、隐蔽关联交易、跨机构洗钱网络、供应链信用塌方……这些问题的共同特征是：风险不是藏在单个实体里，而是藏在实体与实体的关系里。

单看任何一个节点，都没有问题；但把关系链路拉出来一看，风险沿着股权、担保、资金流向层层传导，最终在某个远端节点爆发。这种"关系型风险"，靠打分模型看不出来，靠规则引擎也兜不住。

大模型带来了理解和生成能力，图算法带来了精确的关系推理能力。这两者的结合，正在推动金融风控从"判断型智能"升级为"认知型智能"。

一、金融风控的三次代际进化

要理解双引擎的价值，先看清楚金融风控的代际脉络。

第一代：规则引擎时代（2010 年以前）

以专家规则为核心——"负债率超过 70% 拒批""同一地址注册超过 5 家企业标记异常"。规则引擎的优势是可解释、部署快，但缺点也很明显：只能发现已知的已知风险模式，对新型风险完全没有感知力。

第二代：机器学习时代（2010—2023 年）

以评分卡和机器学习模型为核心，XGBoost、LightGBM 等算法把特征工程做到了极致。这一代的风控能力大幅提升，但本质上是"单点判断"——模型对每个实体独立打分，无法天然捕捉实体之间的关联风险。

一个典型的盲区：A 公司本身资质优良，但它的实际控制人通过 4 层股权关系控制了另一家已违约企业。机器学习模型只看 A 公司自身的特征向量，看不到这条隐蔽的 4 跳关联链路。

第三代：认知智能时代（2024 年起）

大模型 + 图算法的双引擎架构，正在补上"关系认知"这块拼图。图算法负责在亿级节点的关系网络里做精确的多跳推理，大模型负责把推理结果翻译成可理解的风控报告。两者协作，风控系统不仅知道"有风险"，还能说清楚"风险是怎么传导过来的"。

二、大模型和图算法：各自擅长什么、各自做不了什么

先把这个事讲清楚，不然"双引擎"就是一句空话。

维度	大模型	图算法
核心能力	语义理解、文本生成、非结构化信息抽取	精确的多跳关系遍历、最短路径、社区发现、中心性分析
擅长场景	从研报/合同/公告中提取实体和关系；生成风控解释性报告	在亿级图谱中 3~5 跳内精准定位关联路径；识别担保圈和资金环路
短板	多跳关系推理不可靠，容易幻觉出不存在的关系；无法保证遍历的完备性	无法理解非结构化文本；算法结果需要人工解读，缺乏自然语言表达
典型失误	把"A 持有 B 的股权"幻觉成"A 担保了 B 的贷款"	发现了一条 5 跳关联路径，但无法判断这条路径在实际业务中是否构成风险传导

一个关键认知：大模型的推理是概率性的，图算法的推理是确定性的。 金融风控不允许"大概可能有关联"这种回答——监管要求的是可解释、可追溯、可审计。图算法提供确定性骨架，大模型提供语义理解外衣，两者结合才是完整解法。

三、双引擎架构：大模型和图算法怎么协作

双引擎不是简单地把两个系统并排放在一起，而是有三层明确的分工协作：

第一层：知识构建——大模型抽取，图算法验证

非结构化数据（合同、公告、裁判文书、新闻）里的实体和关系，需要大模型做信息抽取。但抽取结果不能直接写入图谱——大模型的幻觉问题意味着它可能"发明"出不存在的关系。

正确的做法是：大模型抽取 + 图算法验证。抽取出来的实体关系先经过图谱中已有数据的交叉校验，与已有节点和边做一致性比对，确认后才入库。图数据库在这个环节充当了"事实校验器"的角色。

第二层：风险推理——图算法定位，大模型解释

面对一个风控查询（"这家企业是否存在隐性关联风险"），图算法负责在图谱中做精确的多跳遍历——沿着股权、担保、资金流向等关系边，穷举所有关联路径，找到风险传导链路。这个过程是确定性的、可复现的。

图算法输出的是一堆路径和节点——"A→B→C→D，4 跳，担保关系传导"。大模型拿到这个结构化结果后，结合企业背景信息和行业知识，把它翻译成一段自然语言的风险分析报告：A 公司通过 B 和 C 两层担保，最终为 D 公司的违约风险暴露了约 XX 的敞口。

第三层：持续学习——图谱反哺模型

图谱中沉淀的关系数据，可以反过来优化大模型在风控领域的微调。比如，用图谱中已确认的担保圈案例作为训练样本，让大模型在信息抽取环节更准确地识别担保关系，形成"越用越准"的正向循环。

四、三个典型场景的实战拆解

场景一：担保圈风险识别

痛点：一家企业直接担保关系容易查，但多层间接担保、交叉担保、环形担保形成的"担保圈"，传统方法几乎无法发现。

双引擎方案：

图算法：在图谱中运行环检测和社区发现算法，识别出所有包含目标企业的担保环路和紧密关联社区
大模型：对识别出的担保圈做语义解读——分析圈内的资金流向特征、行业集中度、违约传染概率，生成可读的风险评估报告

实际效果：某城商行接入双引擎后，担保圈识别覆盖率从 40% 提升到 92%，单次全量扫描时间从 8 小时缩短到 15 分钟。

场景二：反洗钱资金链追踪

痛点：洗钱资金往往通过多层账户跳转、跨行转账、多币种兑换来掩盖流向，传统的规则匹配只能捕捉到已知的洗钱模式。

双引擎方案：

图算法：对资金交易图谱做最短路径搜索和 PageRank 分析，定位异常资金汇聚节点和高介中心性账户
大模型：结合客户 KYC 信息、交易频率、金额特征，对算法标记的异常路径做"是否构成洗钱行为"的语义判断，生成可疑交易报告

实际效果：某股份制银行在反洗钱场景下，双引擎方案的误报率比纯规则方案降低了 65%，同时漏报率下降了 30%。

场景三：供应链信用风险传导

痛点：一家核心供应商的违约，可能通过订单依赖关系传导到上下游数百家企业。传统信用评分只看单个企业的财务指标，看不到它在供应链网络中的"风险传导位置"。

双引擎方案：

图算法：在供应链图谱中计算每个节点的介数中心性和连边权重，识别"系统性关键节点"——一旦违约会导致大面积信用塌方的高介数企业
大模型：结合行业新闻、公告、财务数据，对关键节点做综合风险研判，输出"供应链信用压力测试报告"

五、落地的关键决策

双引擎架构听起来美好，但落地过程中有几个绕不开的决策点。

1.图谱从哪来，怎么持续更新

担保圈图谱需要股权、担保、法人、资金流水等多源数据融合，这些数据分散在工商、征信、内部业务系统里。第一步建议先从确定性最高的数据源（工商股权 + 内部担保台账）入手构建核心图谱，后续再逐步接入资金流水、司法诉讼等增量数据。

更新频率要分层：股权变更做到 T+1 更新即可，但担保合同签署和资金异常交易需要准实时入库。

2.大模型怎么选、怎么控

风控场景对准确性的要求极高，大模型的选择要优先考虑"可控性"而非"生成能力"。建议：

信息抽取环节：用指令遵循能力强的小参数模型 + 严格的结构化输出约束
报告生成环节：可以用更大的模型，但必须把图算法的推理结果作为硬约束注入 Prompt，限制大模型的"发挥空间"

3.图算法结果怎么验证

图算法的输出是确定性的，但"找到一条路径"和"这条路径构成风险"之间还有业务判断的差距。建议建立"算法初筛 + 人工复核"的闭环机制——算法标记出高风险路径，风控分析师做最终确认，确认结果回注到图谱中作为标签，持续优化算法的命中率。

4.选图数据库，性能和标准缺一不可

双引擎架构下的图数据库，需要同时满足三个条件：大规模多跳查询性能（5 跳毫秒级）、支持丰富的图算法库（社区发现、最短路径、PageRank 等）、查询语言标准化（ISO-GQL）确保知识图谱的长期资产价值。

六、悦数图数据库

悦数图数据库在金融风控领域已有成熟的生产实践，支撑了多家银行和保险机构的担保圈识别、反洗钱追踪和供应链风控场景。

性能层面，悦数支持千亿级节点和边的存储与查询，5 跳关联查询毫秒级响应，担保圈全量扫描分钟级完成。算法层面，悦数图平台内置社区发现、最短路径、PageRank、中心性分析等常用图算法，并支持用户自定义算法扩展。

在 AI 融合层面，悦数 AI 应用平台提供 GraphRAG 框架和大模型接入工具链，帮助企业快速搭建"图算法定位 + 大模型解释"的双引擎风控架构，将传统需要 3~6 个月的工程落地周期缩短到数周。

认知智能时代的金融风控，不是选大模型还是选图算法的问题——是两者怎么协作的问题。而这个协作的底座，是一张足够大、足够快、足够准的知识图谱。