悦数图数据库

首页>博客>行业科普>当 AI 遇到关联数据:为什么纯向量检索解决不了复杂关系问题?

当 AI 遇到关联数据:为什么纯向量检索解决不了复杂关系问题?

图数据库

公司的新 AI 助手上线了,接入了内部文档、合同库、知识库,向量检索,语义召回,一应俱全。

第一周,大家都觉得挺好用——问个政策,找份合同,比以前搜索框快多了。

但两个月后,问题来了。

有人问:"这家供应商和我们的关键客户之间有没有业务往来?"助手一脸茫然。有人问:"这个零件的质量问题,历史上追溯到过哪些供应商批次?"助手给出了一段模糊的总结,全是相似内容,没有明确路径。有人问:"如果这家合作方出了风险,我们的哪些在途项目会受牵连?"助手只能说:这超出了我的能力范围。

这不是向量检索做坏了,而是它从一开始就没能力做好这类问题。

一、向量检索的本质与边界

向量数据库做的事情,本质上是:把文本、图片、音频等非结构化内容转化为高维向量,通过计算向量空间中的相似度,找到"语义上接近"的内容。

这件事它做得相当好。问"推荐一个和 Netflix 商业模式类似的公司",向量检索能找到;问"这段话在知识库里有没有相似的描述",向量检索能找到;问"找所有和'碳中和'语义相关的段落",向量检索也能找到。

但向量检索有一个根本性的结构限制:它检索的是内容,不是关系

向量空间里,每个文档是一个独立的点。这些点之间有距离,但没有边——没有"A 是 B 的供应商",没有"C 担任 D 的法人代表",没有"项目 E 依赖合同 F 依赖客户 G"。关联关系,不存在于向量的高维空间里。

一旦问题涉及"关系链",向量检索就到了它的边界。

二、五类向量检索答不上来的问题

以下五类问题,是企业 AI 应用中高频出现的真实诉求,也是纯向量检索系统的共同软肋:

① 多跳路径查询

"公司 A 的主要供应商的主要客户是谁?"这是一个典型的两跳关系问题。向量检索能召回关于公司 A 供应商的文档,却无法在这批文档的基础上进一步推理它们的客户关系,因为它没有维护"供应商—客户"这条边。

② 关系路径追溯

"这款产品的原材料来自哪里,经过了哪些加工环节,现在的库存在哪个仓库?"这是一条端到端的物料追溯链。每一跳都是一条关系,关系之间有方向、有属性。向量模型的相似度计算,无法完成路径追踪。

③ 影响范围评估

"如果某核心供应商断供,哪些在产品受影响,涉及哪些客户合同?"这需要从一个节点出发,沿着图的边做传播分析,计算影响覆盖的范围。这是图算法的核心用途,不是相似度检索能触达的。

④ 隐性关联发现

"这两家公司表面上没有业务往来,但它们的实际控制人是同一个人"——这种隐性连接埋藏在结构里,不在任何一个文档的文本表面。向量检索找不到这种关系,因为没有任何文档在语义层面把这两家公司拉近。

⑤ 时序关系推理

"这个设备在上次故障之后更换了哪些零件,下次同类故障发生的可能路径是什么?"这需要在时序事件上叠加关系推理,是图上的时态查询,向量相似度无从表达"之后"这个结构性含义。

三、为什么这些问题本质上是"图问题"

这五类问题的共同特征是:它们都需要在实体之间沿关系路径游走,答案不在某一个文档里,而在实体与实体的连接关系里

图数据库的核心设计,正是为了表达和计算这种连接:

  • 节点:代表实体(公司、人、设备、合同、产品……)
  • :代表关系(供应商、客户、控制、依赖、生产、追溯……)
  • 属性:为节点和边附加时间戳、金额、状态等上下文信息
  • 路径遍历:沿边从一个节点走到另一个节点,可以是一跳、三跳、五跳,甚至不定深度

当数据被建模为图之后,"公司 A 的供应商的客户"就变成了一个 2 跳图查询,在毫秒级内完成;"影响范围评估"变成了从目标节点出发的广度优先遍历;"隐性关联发现"变成了两个节点之间的公共邻居检测;"时序路径推理"变成了带时间属性过滤的路径搜索。

这些都是图数据库的基本操作,不需要任何 AI 加持,就能直接回答。

以悦数图数据库为例,在亿级节点规模下,3~5 跳关系查询稳定在百毫秒以内,支持复杂子图匹配与全图算法并行计算,这是任何向量数据库都无法在同一数据结构上实现的能力。

四、悦数 GraphRAG:让向量与图在同一个推理链路里协同

向量检索解决"在哪里",图推理解决"怎么连"——两者协同,才能完整回答复杂的企业 AI 问题。

悦数图数据库原生支持 GraphRAG 架构,将图数据库与大模型推理链路深度集成:

第一步:图结构召回

用户提问后,系统先在图数据库上执行图查询,找到与问题相关的实体和关系路径,提取出一个子图作为结构化上下文。这一步确保了关联关系被完整保留,而不是被向量平均掉。

第二步:混合上下文组装

将图结构(实体关系路径)与向量检索结果(语义相关文档片段)一起拼入 Prompt,给大模型提供"有结构、有语义"的双重上下文。结构告诉模型"谁和谁有关系",语义告诉模型"这些内容说了什么"。

第三步:大模型推理与生成

大模型基于完整的双重上下文生成答案,可以回答"为什么"和"会怎样",而不只是"是什么"。

第四步:Text2nGQL 自然语言查询

悦数支持将自然语言问题自动转译为 nGQL 图查询语句,让业务用户无需了解图查询语法,直接以对话方式探索图谱,降低了图数据能力的使用门槛。

这套架构已通过与 LlamaIndex、LangChain 的深度集成验证,可以无缝融入企业现有的 AI 应用开发栈。

五、哪些企业场景应该优先考虑图数据库

不是所有企业 AI 应用都需要图数据库,但以下这些场景,建议把图数据库列为必选项:

金融风控与反欺诈:欺诈团伙的认定依赖多层关系网络,团伙成员之间的设备共用、资金流转、担保关系等,都必须在图上识别,向量检索无从触达。

供应链韧性分析:供应商—物料—产品—客户是一条多层依赖链。断供影响范围评估、替代方案寻找、风险传播模拟,都是图遍历问题。

企业知识图谱问答:当知识分布在多个部门、多个系统、多个文档时,知识之间的关联关系往往才是答案所在,而不是单篇文档的语义内容。

IT 运维与故障根因分析:服务依赖图、基础设施拓扑、告警传播路径,都是图结构。根因定位本质上是一个从故障节点反向溯源的图遍历问题。

医疗知识推理与药物研发:疾病—基因—靶点—药物的关联网络,是生物医学 AI 的核心数据结构。纯向量模型没有能力在这张网络上做多步推理。

向量检索是大模型时代的重要基础设施,但它不是企业 AI 的全部答案。当你的业务问题涉及"谁与谁有关系""关系链上发生了什么""如果一个节点出了问题会影响哪些节点"时,你需要的工具是图数据库。

悦数图数据库以亿级图规模、毫秒级多跳查询、动态 Schema、原生 GraphRAG 和 Studio 可视化,提供了企业级图推理能力的完整解决方案。向量解决语义,图解决关系,二者协同,才是真正能支撑复杂企业 AI 应用的基础设施架构。