<img src="https://www-cdn.yueshu.cn/yueshu-website/images/share/2024-01-24.jpg" alt="数据预处理" />
数据预处理在数据挖掘中至关重要，旨在提升原始数据的品质与可用性。其主要任务涵盖去除冗余、数据清洗、格式转换，以及处理异常值。此外，通过消除变量间的相关性，数据预处理增强了数据的代表性和可解释性，为后续的数据分析和挖掘奠定坚实基础。
在数据预处理缺失值时，通常有两种策略：一是删除缺失值，用新数据替换；二是引入新变量，以完善数据集。此外，根据实际情况，还可以选择其他方式来替代缺失值。
分类变量在数据挖掘中具有重要意义，但也可能存在复杂问题。例如，分类变量间的关系难以解析，且可能存在线性或非线性相关性。
为消除变量间的相关性，可采用标准化方法。这包括均值化、平方和化、最小二乘法估计，以及线性变换等策略。
数据变换旨在消除原始数据中的冗余信息，使之更具代表性、更易理解。这涉及到简单变换、加窗处理和规范化等技巧。
数据清洗和集成是完善原始数据的核心环节，涉及合并数据、处理缺失值和错误值等任务。根据具体需求或数据挖掘框架进行相应的处理，可显著提升数据的质量与完整性。
在数据预处理阶段，首先要确保数据质量，然后对原始数据进行清洗和集成。在此基础上，进一步开展基于数据分析和挖掘的工作，从而充分发挥原始数据的价值。
悦数图数据库采用点边结构来存储实体和关系，提供直观的呈现方式和细颗粒度的权限管控。通过这些先进的数据预处理方法，能够有效地提升数据的品质和可用性，为后续的数据分析和挖掘奠定坚实基础。

通过消除变量间的相关性，数据预处理增强了数据的代表性和可解释性，为后续的数据分析和挖掘奠定坚实基础。

应用分享

新闻资讯

用户案例

周边工具

特性讲解

发版说明

技术干货

行业实践

行业科普

数据预处理的方法有哪些

中国移动：悦数图数据库在金融风控领域的落地应用

悦数图数据库发布 v3.4.0，深入探索数据价值

五矿期货：悦数图数据库在金融期货行业的应用与实践探索

同盾科技：聊聊知识图谱在金融风控场景中的应用

悦数图数据库完成鲲鹏、飞腾、海光等多款国产 CPU 信创兼容性认证

![图数据库的 RAG](https://www-cdn.yueshu.cn/yueshu-website/images/share/2026-07-03-02.png)

一家互联网公司的技术总监在 2025 年底做了一次内部复盘。他的团队花了四个月搭建了一套企业级 RAG 系统——文档解析、切块、向量化、检索、大模型生成，整条链路跑通了，Benchmark 测试的准确率达到了 82%。上线之后，前两周用户反馈"不错，比搜索好用"。但到了第三周，问题开始集中爆发：法务团队问"这份合同和去年那份补充协议有冲突吗"，系统回答"根据合同文档，补充协议的效力从属于主合同"——这段话确实在文档里写了，但系统没有发现这份合同的签约方与去年那份补充协议的签约方通过三层股权关联是同一家关联企业，而这正是判断冲突的关键。运维团队问"这次 K8s 节点故障会影响哪些业务线"，系统回答"K8s 节点故障可能导致 Pod 重新调度"——这是通用知识，但系统没有发现这个节点上运行着订单服务的三个 Pod，而订单服务是支付链路的核心依赖。技术总监在复盘报告中写道："RAG 能检索到内容，但检索不到关系——而企业真正需要回答的问题，80% 都和关系有关。"

这个结论不是个例。2026 年，越来越多在 2024-2025 年间部署了 RAG 系统的企业都在经历类似的阵痛：系统在"事实型问答"上表现优异，但在"推理型问答"上频频翻车。根因只有一个——**普通 RAG 只检索了内容，没有检索关系。而没有关系推理能力的 RAG，注定是不完整的。**

### 一、普通 RAG 的三层结构性缺口

要理解"不完整"在哪里，需要先把普通 RAG 的工作原理拆开看。标准 RAG 流程是：文档切块 → 向量化 → 存入向量数据库 → 用户提问时检索语义最相似的 Top-K 文档块 → 拼接到大模型提示词中 → 大模型生成回答。这套架构在"答案就写在某段文档里"的场景中表现很好，但在企业真实业务场景中，它有三层结构性缺口。

**缺口一：关系平均化——检索到了内容，丢失了关系结构。** 向量检索的召回逻辑是语义相似度——问题和文档块在向量空间中距离近就召回。但文档块被切块后，实体之间的关系结构就打散了。一份合同文档里写了"甲方 A 向乙方 B 采购设备，担保方为 C 公司"，这段话被切块后存入向量库。用户问"A 和 C 是什么关系"，检索能找到这段话，大模型能回答"C 是担保方"。但用户问"A 的实际控制人是否与 C 有关联"，系统就答不上来了——因为实际控制人信息在工商数据里、股权关联关系在另一份文档里、C 公司的股东信息又在第三份文档里，三段内容在向量空间中可能相距很远，Top-K 检索根本不会同时召回。**关系被切碎了，检索只能找到关系的一个切片，找不到完整的关系链路。**

**缺口二：多跳断链——每一跳都在丢信息，三跳后几乎归零。** 企业推理型问题几乎都是多跳的。"这笔交易有没有风险"需要走 3 跳（交易→对手方→关联企业→违约记录），"这个故障影响哪些业务"需要走 4 跳（组件→微服务→业务系统→业务线→客户影响面），"这个客户适合什么产品"需要走 2-3 跳（客户→相似客户→购买偏好→产品匹配）。普通 RAG 处理多跳的方式是逐跳检索：先检索第一跳的相关文档，提取答案，再根据答案构造第二跳的查询，再检索，再提取……每一跳都有召回率损耗——假设每跳召回率为 80%，三跳后召回率只剩 51%，四跳后只剩 41%。**信息在逐跳传递中指数级衰减，三跳之后的推理结果几乎不可信。**

**缺口三：实体混淆——同名实体无法消歧，推理方向就错了。** 企业数据中同名实体极其常见——"张三"可能是客户经理，也可能是投保人，也可能是供应商法人代表。"北京公司"可能是集团总部，也可能是某子公司，也可能是某个区域事业部。向量检索基于语义相似度召回文档块，它无法区分"张三（客户经理）"和"张三（投保人）"——两者在向量空间中几乎重合。当用户问"张三负责哪些客户"时，系统可能召回了投保人张三的理赔记录，把"理赔金额"当成了"客户经理管理的客户保额"。**实体消歧是推理的起点——起点搞错了，后面的所有推理都是在错误的方向上走。**

三层缺口叠加，导致普通 RAG 在推理型问题上表现拉胯——不是模型不够聪明，也不是向量库不够快，而是架构本身缺失了关系推理这一层。

### 二、图数据库补上的三块拼图

[图数据库](https://www.yueshu.com.cn/database)接入 RAG 后，系统从普通 RAG 升级为 GraphRAG。补上的是三块拼图——恰好对应三层缺口。

**拼图一：关系结构化存储——让关系不再被切块打散。** 图数据库的节点和边结构天然表达关系。"甲方 A""乙方 B""担保方 C"是三个节点，"采购""担保"是两条有向边。这些关系不依赖文档切块来保持完整性——它们以图结构的形式存储在数据库中，一次查询就能完整返回"A→担保→C"的关系路径。当用户问"A 和 C 的关联"时，图数据库直接遍历 A 和 C 之间的所有边，返回完整的关系链路，而不是从散落的文档块中拼凑。悦数图数据库在亿级节点规模下支持多跳关系遍历响应时间保持在毫秒至百毫秒级别，确保关系检索不成为 GraphRAG 链路的延迟瓶颈。

**拼图二：多跳一次性走完——让信息不再逐跳衰减。** 图数据库的多跳遍历能力是关系型数据库和向量库都不具备的。从起始节点出发，沿指定边类型走 N 跳，一次调用就能返回完整的多跳路径。交易→对手方→关联企业→违约记录，四跳路径在图数据库中是一条连续的遍历——不存在"先查第一跳再查第二跳"的串行衰减问题。悦数支持 3～10 跳图遍历在亿级规模下保持百毫秒级响应，让 GraphRAG 的多跳推理一次性完成，信息不再逐跳损耗。

**拼图三：实体精确锚定——让同名实体不再混淆。** 图数据库中每个节点有唯一 ID 和明确的标签类型——"张三（客户经理）"的节点标签是 Employee，"张三（投保人）"的节点标签是 Customer。即使两者姓名相同，在图中的 ID 不同、标签不同、关联的边也不同。GraphRAG 在实体识别阶段将用户问题中的"张三"锚定到图数据库中的具体节点——通过上下文判断是客户经理还是投保人——后续推理从这个精确锚定的节点出发，不会走错方向。

| 能力维度     | 普通 RAG                                 | GraphRAG（接入图数据库后）             |
| ------------ | ---------------------------------------- | -------------------------------------- |
| 关系感知     | 文档块中的文本关系，被切块打散           | 图结构存储，一次查询返回完整关系路径   |
| 多跳推理     | 逐跳检索，每跳有召回损耗，三跳后衰减严重 | 图遍历一次性走完 N 跳，无信息衰减      |
| 实体消歧     | 语义相似度无法区分同名实体               | 节点唯一 ID + 标签类型精确锚定         |
| 上下文实时性 | 向量索引重建前返回旧内容                 | 图数据库实时写入，查询返回最新状态     |
| 可解释性     | 返回文档片段来源，但推理过程不透明       | 推理路径完整可追溯，每个节点和边可下钻 |
| 答案类型     | 回答"文档说了什么"                       | 回答"根据实体关系，结论是什么"         |

六维对比的结论很清晰：普通 RAG 和 GraphRAG 不是"好和更好"的关系，而是"不完整和完整"的关系——缺少图数据库的 RAG，就像一个只读了教材正文但没做课后习题的学生，知识面覆盖了，但推理能力没有训练出来。

### 三、GraphRAG 的五步推理链路

图数据库接入 RAG 后，一条完整的推理链路分五步：

**步骤一：意图解析与分流。** 大模型接收用户问题，判断这是"事实型问答"还是"推理型问题"。事实型问题（"合同模板在哪里下载"）走普通向量检索路径，直接从文档中召回答案。推理型问题（"这份合同有没有合规风险"）进入 [GraphRAG](https://yueshu.com.cn/posts/graph-rag) 链路。分流的意义在于——不是所有问题都需要图遍历，简单问题走轻量路径降低延迟，复杂问题走推理路径保证准确性。

**步骤二：实体识别与图锚定。** 大模型从问题中提取关键实体——"这份合同""合规风险"——并在图数据库中定位这些实体对应的节点。"这份合同"锚定到 Contract 节点，"合规风险"锚定到 Risk 节点。如果实体在图中找不到匹配节点，系统触发追问。这一步解决了实体消歧问题——通过图锚定，确保后续推理从正确的节点出发。

**步骤三：图遍历抽取关系子图。** 从锚定节点出发，按业务逻辑定义的边类型和跳数进行图遍历。以合同合规风险为例：从 Contract 节点出发，沿"签约方"边找到签约企业节点，沿"股权控制"边找到实际控制人节点，沿"关联交易"边找到关联企业节点，沿"合规记录"边检查是否有违规历史。这一步的输出是一个结构化的关系子图——包含了推理所需的所有关系路径。

**步骤四：混合上下文组装。** 图遍历返回的关系子图与向量检索返回的文本片段混合组装为增强提示词。关系子图提供"实体之间什么关系"的结构信息，文本片段提供"规则怎么规定"的语义内容。大模型在提示词中同时看到关系路径和规则文本，可以进行真正的推理："该合同的签约方 A 通过三层股权关联了关联企业 B，B 在 2025 年因违规关联交易被监管处罚，根据《关联交易管理办法》第 12 条，本合同存在合规风险。"

**步骤五：可解释追溯。** 推理完成后，系统不仅给出结论，还返回推理路径——"合同→签约方 A→股权控制→关联企业 B→合规记录→违规处罚→风险结论"。用户可以点击路径中的任何一个节点查看详情，理解推理是怎么得出的。这种可解释性在企业场景中至关重要——合规审计要求每项 AI 决策有完整推理链可追溯。

### 四、三大企业场景：不完整的 RAG vs 完整的 GraphRAG

**场景一：金融风控合规审查。** 某城商行的合规审查 RAG 系统上线后，法务团队反馈"系统能找到合同条款，但判断不了合同风险"。原因在于——合同风险不是条款本身的问题，而是签约方关联关系的问题。接入图数据库后，系统从合同节点出发，遍历签约方的股权穿透链路，检查实际控制人是否与已知的受限主体存在关联。一个真实案例：某份贷款合同的签约方在表面上看与银行黑名单无关联，但图数据库通过 4 跳股权穿透发现，签约方的实际控制人通过三家壳公司间接持有一家被列入黑名单的企业 15% 的股份——这条关系链路在文档中完全不可见，但在图中一目了然。

**场景二：IT 运维故障影响分析。** 某互联网公司的运维 RAG 系统能回答"Kafka 告警阈值是多少"，但回答不了"这次 Kafka 故障影响哪些业务"。接入图数据库后，系统从 Kafka 节点出发，沿"被调用"边遍历下游微服务，沿"支撑"边找到业务系统，最终输出影响面评估："Kafka 延迟影响 3 个下游服务，其中订单服务为核心链路，预计影响下单和支付，建议优先处理。"故障定位时间从 40 分钟缩短到 5 分钟——因为图遍历一次性走完了 4 跳依赖链路，不需要逐跳检索。

**场景三：企业知识库智能问答。** 某制造企业的知识库 RAG 系统在回答"产品 A 的供应商有哪些替代方案"时，只能检索到产品 A 的供应商列表文档，无法推荐替代方案。接入图数据库后，系统从产品 A 节点出发，沿"供应"边反向找到原材料需求节点，沿"可替代"边找到备选供应商节点，同时检查备选供应商的产能、资质和历史交货记录。输出的不是一个静态列表，而是一个动态推理结果——"产品 A 的核心原材料可由供应商 B（产能充足，但 2025 年有两次延迟交货记录）和供应商 C（产能有限，但历史交货准时）替代，建议按 7:3 分配采购份额。"

三个场景的共同结论：**普通 RAG 回答的是"文档里有什么"，GraphRAG 回答的是"根据关系推理出什么"。前者是检索，后者是推理——企业需要的是推理。**

### 五、悦数五项核心能力

GraphRAG 的完整实现，对图数据库提出了五项核心要求：

**亿级多跳实时查询。** 推理型问题几乎都是多跳的，系统需要在毫秒级完成 3～10 跳的图遍历，否则用户等待超过 3 秒就会放弃使用。悦数在亿级节点规模下支持多跳查询响应时间保持在百毫秒级别，确保 GraphRAG 的推理延迟不影响用户体验。

**原生 GraphRAG。** 悦数 GraphRAG 不是在向量检索之上外挂一个图查询模块，而是在引擎层面将图遍历与语义检索深度耦合。图遍历负责获取结构化的关系路径，语义检索负责补充文本上下文，两者在同一个查询计划中完成——不是"先查图再查向量"的两步走，而是一次调用完成混合检索。这种原生设计避免了两次 API 调用的延迟叠加，也避免了应用层拼接结果的开发成本。

**Text2nGQL 自然语言接口。** GraphRAG 的用户是企业员工而非技术人员。Text2nGQL 让用户用自然语言提问，系统自动转化为图查询。"找出这份合同的签约方在四跳以内关联的所有受限主体"这样的自然语言描述，直接转化为精确的多跳遍历查询。这让推理能力不只服务于技术团队，而是普惠到每一个业务岗位。

**动态 Schema 适配场景扩展。** 企业 RAG 系统的覆盖场景会持续扩展——今天做合同审查，明天扩展到运维故障分析，后天扩展到供应链管理。每个新场景可能引入新的实体类型和关系类型。悦数动态 Schema 允许在不中断服务的情况下添加新的节点标签和边类型，新场景即接即用，不需要停机迁移。

**Studio 可视化调试。** GraphRAG 的推理链路比普通 RAG 复杂得多——开发者需要看到图遍历走了哪些节点、跳了几跳、在哪里断了、为什么没找到预期路径。悦数 Studio 提供图谱可视化界面，支持查询路径可视化展示和节点详情下钻，让开发者和业务人员都能直观检查推理链路的正确性。

**说"没有图数据库的 RAG 是不完整的"，不是否定向量检索的价值——向量检索在语义召回上依然是最高效的手段。** 但语义召回只是 RAG 的第一层能力，关系推理是第二层。只有把这两层叠加起来，RAG 才真正具备回答企业复杂业务问题的能力。向量检索让 RAG 能"找到相关内容"，图数据库让 RAG 能"推理出正确结论"——前者是基础，后者是完整。2026 年，企业需要的不再是"能检索的 RAG"，而是"能推理的 GraphRAG"——而这一切的起点，就是接入图数据库。

悦数图数据库通过亿级多跳实时查询、原生 GraphRAG 与 Text2nGQL 自然语言接口，补齐普通 RAG 在关系感知、多跳推理和实体消歧三大维度的结构性缺口，让检索增强生成从"召回文档片段"升级为"沿关系路径推理出答案"。

为什么说"没有图数据库的 RAG 是不完整的"？

过去一年，企业 AI 的讨论越来越热。从智能问答到 Agent，从 RAG 到 Copilot，越来越多企业开始思考一个问题：如何让 AI 不只是回答问题，而是真正理解业务？——答案并不只在模型本身。

很多时候，AI 之所以难以准确回答业务问题，总以为模型能力不够，实际上是因为企业的数据世界本身并没有被清晰地表达出来：客户是谁，产品是什么，风险来自哪里，流程如何流转，指标之间如何关联，规则又如何影响结果。这些信息散落在数据库、文档、系统、表格和业务人员的经验中。对于人来说，它们可能是常识；但对于 AI 来说，如果没有清晰的结构，就很难真正理解。

这也是为什么“本体”重新受到关注。

本体的核心价值，是把业务世界中的实体、关系、属性和规则定义清楚，让机器能够理解企业如何描述自己的业务世界。但本体不能只停留在概念层，也不能只存在于建模文档里。要真正支撑 AI 应用，本体必须落到可存储、可查询、可计算、可推理的数据底座中。

[图数据库](https://www.yueshu.com.cn/database)，正是承载这件事的重要基础。本次版本更新，悦数图数据库围绕本体数据承载、图计算分析、查询性能、系统可靠性和资源治理等方向进行了系统性升级。

从 SET、MAP 数据类型的支持，到新增数十种图算法、SubGraph、GQL Skills 协同，再到性能优化、高可用和资源管理能力，悦数图数据库正在进一步强化面向企业 AI 的图数据底座能力。


# 让本体中的复杂数据更好存


在真实业务中，一个客户可能同时拥有多个标签、多个兴趣、多个风险特征；一个知识对象可能属于多个分类；一个业务实体也可能随着场景变化产生不同的动态属性。如果底层数据结构只能表达固定字段，本体建模就会被迫简化，很多真实业务信息无法完整进入图中。对于后续的知识检索、关系推理和 AI 应用来说，这些缺失都会影响最终效果。

因此，在本次版本更新中，悦数图数据库新增了对 SET 和 MAP 数据类型的支持，让真实世界中的复杂数据能够更自然地进入图。

SET 数据类型适合存储用户标签、兴趣特征、知识分类等多值信息，能够更自然地表达一个实体同时具备多个特征的情况。MAP 数据类型则适合存储动态属性、Prompt Metadata、Agent 状态等非固定结构数据，能够更灵活地承载不同业务对象之间存在差异的属性信息。

![悦数图数据库 v5.3 版](https://www-cdn.yueshu.cn/yueshu-website/images/5.3-2.png)

这意味着，图数据库不仅可以存储实体和关系，更可以更完整地承载本体中的属性、特征和上下文信息，为后续的知识检索、关系推理和 AI 应用提供更接近真实业务世界的数据基础。


# 让图计算更快支撑 AI 发现关系

把数据存进图，只是第一步。



很多企业已经把数据接入系统，但企业真正需要的，是从复杂关系中发现价值：哪些客户属于同一圈层？哪些节点最关键？风险会沿着哪条路径传播？某个对象周围有哪些相关实体？哪些群体之间存在潜在关联？



本次更新，悦数图数据库将图算法能力与 GQL Skills 深度整合。系统内置数十种全新的图算法，覆盖社区发现、圈层识别、路径分析和潜在关联群体挖掘等典型场景，同时结合自然语言驱动的 GQL Skills，使用户无需手写复杂查询或算法，即可快速生成图分析任务并执行。



通过图算法与 GQL Skills 的协同，原本需要开发者手动实现的分析流程，现在可以通过自然语言快速完成，从算法选择、参数配置到结果输出实现一体化自动化。在实际使用中，原本需要两周左右完成的算法开发，现在往往十几分钟就可以完成，平均开发成本也降到了几块钱，大幅提升了图分析能力的可用性与落地效率。


在这一能力体系下，新增的水平聚合函数可以用于构建多维统计指标和特征，提升关系分析的完整性和可解释性；SubGraph 函数则可以围绕目标实体快速提取局部子图，帮助用户高效查看节点周边关系网络，减少复杂查询的编写成本

这些能力的提升，使企业在构建 AI 应用时，可以更方便地获取高质量的关系数据和结构化特征，提升知识检索、特征工程和关系推理效果，让企业 AI 输出更加准确、更加可解释。

# 让 AI 应用跑得更快、更稳、更省成本

当本体、知识图谱和企业 AI 应用从 PoC 走向生产环境，系统需要面对的不再是单次验证，而是长期稳定运行、复杂查询响应、多团队协作、资源隔离和成本控制等现实问题。

本次更新围绕性能提升、高可用、资源管理和执行安全进行了系统性增强。

相比于 5.2 版本，本次升级在性能与资源效率上实现了系统性的提升：图分析平均性能提升 2.2 倍，图查询平均性能提升 1.87 倍。通过查询解释器优化、延迟物化、点中心索引等能力，复杂关系查询、路径探索、知识召回和图计算效率得到整体增强，使系统在相同资源条件下即可支撑更高并发与更复杂的业务负载。

在此基础上，系统进一步通过副本动态调整能力，将性能提升与资源使用策略打通：企业在 PoC 阶段可以以更低资源投入快速验证业务价值，在生产阶段再按需提升副本数与可靠性，实现性能、成本与稳定性的动态平衡，从而显著提升整体资源利用率。

同时，多租户与配额管理能力的强化，使资源调度与隔离能力与上述性能与弹性能力形成协同，可以对不同团队、不同任务的计算与存储资源进行精细化控制，避免资源争抢，保障多业务并行场景下的平台稳定运行。

在系统可靠性方面，悦数图数据库 5.3 版本支持同城主备容灾、同城双活、异地容灾、三地五中心等多种部署形态，为关键业务构建更加可靠的图数据底座。


此外，Dry Run 模式支持在正式执行复杂查询前，提前校验语法、执行计划和可能影响的数据范围，减少无效任务带来的时间与资源浪费，进一步提升整体资源使用效率。


这些能力共同解决的是同一个问题：让图数据库从技术验证走向业务生产，不仅要能存、能查、能算，更要稳定、可控、可持续。

企业 AI 的下一步，不只是接入模型，而是让模型真正理解企业自己的业务世界。本体负责定义这个世界，图数据库负责承载这个世界，而图计算和图分析则帮助企业从这个世界中发现关系、理解关系、使用关系。

未来，悦数也将继续围绕本体构建、关系推导、自动化执行与生产级稳定性持续演进，帮助企业将分散数据连接起来，将隐藏关系挖掘出来，并转化为可理解、可分析、可应用的业务价值。


悦数图数据库 v5.3 版本发布：如何让 AI 不只是回答问题，而是真正理解业务？

悦数图数据库 v5.3 版本发布：让复杂数据和业务关系更好支撑企业 AI

![图数据库选型](https://www-cdn.yueshu.cn/yueshu-website/images/share/2026-07-02.png)

三年前，一家股份制银行的技术架构师写了一份 20 页的图数据库选型报告，核心评估维度是：单机吞吐量、多跳查询延迟、集群高可用、SQL 兼容性。2026 年，同样是这家银行，同样是一位架构师，他的选型报告变成了 60 页——新增的 40 页全在讨论三个问题："它能跑在 K8s 上做弹性伸缩吗？""它能不能和我们的 RAG 系统深度集成？""我们的[知识图谱](https://www.yueshu.com.cn/solutions/knowledge-graph)有文本、有图片、有 Excel 表格，它能统一存吗？"

这三个问题，恰好构成了 2026 年图数据库选型的三个全新维度：**云原生、GraphRAG、多模态。** 三年前的核心维度依然重要，但它们已经从"决策项"变成了"准入门槛"——如果一款图数据库连这几项都做不好，根本进不了候选名单。真正拉开差距的是这三个新维度，因为它们回答的是企业正在面临的真实挑战：基础设施全面上云、大模型全面渗透业务流程、知识库从纯文本走向文本+图像+表格的融合。

**2026 年的[图数据库选型](https://www.yueshu.com.cn/database)，不是比谁的性能参数更高，而是比谁能同时跑通这三条赛道。**

### 一、为什么 2026 年需要新的选型框架？

是企业的需求变了。三件事在同时发生，相互作用，把图数据库推到了一个新的评估坐标系里。

**第一件事：基础设施全面云原生。** 2026 年，大中型企业的基础设施战略已经完成了"上云→容器化→Kubernetes 统一调度"三阶段演进。数据库不再是直接部署在物理机或虚拟机上，而是作为有状态服务运行在 K8s 集群中。架构师评价一款数据库时，不再只问"单机能跑多大的图"，而是问"它能在 K8s 上做弹性扩缩容吗？计算和存储能独立伸缩吗？扩节点时需要停服务吗？"传统 Shared-Nothing 架构在云原生环境下暴露了两个痛点：一是计算和存储耦合，扩容必须同时扩计算和存储节点，资源浪费严重；二是状态管理复杂，节点故障时需要人工介入重建数据副本。如果一款图数据库在这两个问题上没有给出足够优雅的解决方案，它在 2026 年的选型中会直接被淘汰——不是因为性能不够，是因为跟不上基础设施的节奏。

**第二件事：大模型全面渗透业务流程。** 2026 年的企业已经过了"要不要用大模型"的阶段，进入了"大模型怎么和已有系统深度融合"的新阶段。RAG 系统从实验品变成了标准化组件，企业 AI 助手从"能回答问题就行"变成了"能推理出业务结论"。这种升级把图数据库从"一个独立的查询引擎"变成了"大模型的推理知识源"——大模型需要图数据库实时提供实体之间的多跳关系、子图上下文和可解释的推理路径。架构师在选型时不再只看图数据库的查询性能，还要看它和大模型生态的集成深度——有没有原生的 GraphRAG 能力？支不支持 Text2nGQL 自然语言查询？能不能和 LangChain、LlamaIndex 无缝对接？这三问如果任何一个的答案是"没有"，选型报告就会被打回。

**第三件事：知识库从纯文本走向多模态融合。** 三年前，企业的知识图谱基本上是纯文本的——实体属性是字符串，关系推导靠 NLP。2026 年，企业的知识来源已经高度多元化：产品规格表是 Excel、质检报告是 PDF 扫描件、设备故障记录附带现场照片、供应链合同有手写签名图片。架构师在选型时面临一个新问题：当知识图谱需要同时承载文本、图像、表格三种模态的数据——并且要支持跨模态推理（"找出这张照片中的零件在哪些表格中被标记为不合格"）——传统的关系型图建模方案根本不够用。图数据库必须支持动态 Schema 扩展、向量属性存储和多模态实体对齐，否则就只能存文本，管不了图像和表格。这在 2026 年是不可接受的——因为企业的痛点恰恰在于三种模态的数据关联不起来。

**三重压力叠加，把图数据库选型推进了一个新的维度空间。** 过去是二维评估——功能 + 性能。现在至少是五维——云原生架构、性能弹性、GraphRAG 集成深度、多模态支持能力、传统功能与性能——而且每一维都是硬门槛，有一项不及格就直接出局。

### 二、云原生：从"能部署在云上"到"为云而生"

云原生对图数据库的要求远不止"能部署在云上"——那只是 IaaS 层面的云化，2018 年就做到了。2026 年的云原生要求的是 K8s 原生、存算分离、弹性伸缩、自愈运维四个层面的能力。

**K8s 原生。** 2026 年，图数据库必须能够通过 K8s Operator 部署和管理，支持声明式配置——用 YAML 描述期望的节点数量、资源配额和拓扑结构，Operator 自动调和到目标状态。这不仅是一个部署便利性的问题，更决定了图数据库能否融入企业的 DevOps 流水线——能不能用 GitOps 管理数据库配置？能不能在 CI/CD 流程中自动化创建和销毁测试实例？做不到的例子直接出局，因为运维团队没有精力为图数据库单独维护一套部署流程。

**存算分离。** 这是图数据库云原生化最关键的一道坎。传统 Shared-Nothing 架构下，每个节点同时承担计算和存储，扩容时必须同步增加存储节点。但在云原生场景下，计算需求和存储需求的增长曲线完全不同——读查询增多需要扩计算节点，数据量增长需要扩存储节点。存算分离架构让计算层和存储层独立伸缩：写查询密集时扩计算节点、不需要携带数据副本；存储需求增长时独立扩存储层、不影响计算资源。悦数图数据库原生支持存算分离架构，计算节点和存储节点按需独立弹性伸缩，既避免了资源浪费，也降低了扩容时数据重平衡带来的性能波动。

**弹性伸缩。** 存算分离是弹性伸缩的前提，但弹性伸缩本身还需要自动化调度。图数据库需要支持基于负载指标的自动扩缩容——当读查询 QPS 超过阈值时自动增加计算节点，当数据量接近存储上限时自动扩展存储容量。扩容过程必须是服务无损的——不能中断查询、不能掉线、不能让前端应用感知到任何波动。悦数支持 K8s HPA（Horizontal Pod Autoscaler）集成，根据 CPU、内存和查询 QPS 等指标自动触发扩缩容，扩容期间查询服务零中断。

**自愈运维。** 云原生环境的核心原则是无状态——但数据库恰好是有状态的，这种矛盾必须在架构层面解决。图数据库需要支持节点故障自动检测、自动 Failover、自动数据修复——运维人员不需要凌晨三点爬起来手动重建副本。悦数通过多副本 Raft 协议保证数据一致性，单节点故障后秒级自动切换，数据副本自动修复，故障恢复全过程对业务透明。

云原生四层能力，缺任一层的图数据库在 2026 年的选型中都会遇到阻力——不是因为技术不可行，而是因为运维团队已经被云原生标准化了，任何需要非标准化运维手段的组件都会成为瓶颈。

### 三、GraphRAG：从"能连大模型"到"内置推理引擎"

2024 年，图数据库和大模型的集成方式是"图数据库独立跑、大模型独立跑、中间通过 API 调用拼接"。架构师在选型时问的是"它能不能和大模型对接"，答案通常是"可以，通过 openCypher/REST API 自己写集成代码"。到了 2026 年，这种集成方式被证明是有性能瓶颈的——两次 API 调用引入了数百毫秒的延迟，图查询结果和语义检索结果需要在应用层拼接，开发和维护成本居高不下。

2026 年的 GraphRAG 选型标准从"能不能集成"升级为"是否原生内置"。

**原生 GraphRAG 的三层含义。**

第一层：引擎层面图遍历与语义检索深度耦合。不是"先查图再查向量"的两步走，而是在同一个查询计划中完成——图遍历负责获取结构化关系路径，语义检索负责补充文本上下文，两者共享执行上下文和结果缓存。悦数原生 GraphRAG 将图遍历和向量检索融合在同一执行引擎中，单次查询即可完成关系路径还原和语义内容召回，避免了两次 API 调用的延迟叠加。

第二层：天然支持多跳推理上下文组装。GraphRAG 的核心价值是让大模型拿到"关系子图 + 语义文本"的混合上下文，而不是零散的文档片段。这要求图数据库能够在一次调用内完成多跳图遍历，抽取出完整的推理子图。悦数在亿级节点规模下支持 3～10 跳遍历响应时间保持在毫秒至百毫秒级别，确保 GraphRAG 的混合上下文组装不成为推理链路的延迟瓶颈。

第三层：可解释的推理追溯。GraphRAG 不仅给出答案，还要给出推理路径——哪些实体参与了推理、实体之间什么关系、沿哪条路径得出的结论。这在金融合规、政务审计等场景中是硬性要求——不是辅助功能，是合规底线。悦数 GraphRAG 输出的推理结果自带路径追溯，用户可以下钻查看推理链路上的每一个节点和每一条边。

**Text2nGQL 自然语言接口。** 2026 年，GraphRAG 的用户不再是技术人员专属——风控分析师、供应链经理、客服专员都需要用自然语言查询图谱。Text2nGQL 将"找出这笔交易的对手方在三跳以内关联的所有违约企业"这样的自然语言描述，自动转化为精确的多跳图遍历查询。这让 GraphRAG 的推理能力从技术栈层面向下渗透到业务岗位。

**生态兼容性。** 2026 年企业的 AI 技术栈通常已经选定了大模型框架——LangChain、LlamaIndex、Dify 等。图数据库需要提供这些框架的原生集成支持，而不是让开发团队花两周写自定义集成插件。悦数提供 LangChain Community 和 LlamaIndex 的原生集成接口，直接作为 GraphRAG 的图存储和查询引擎接入，不影响企业现有的 AI 工具链。

从"能连大模型"到"内置推理引擎"，这个升级的本质是：图数据库从大模型的"外挂数据源"变成了"内置推理引擎"——前者是你主动去查，后者是推理过程中自动帮你查，不需要手动拼装中间结果。

### 四、多模态：从"文本知识图谱"到"多模态统一建模"

多模态是 2026 年图数据库选型中最容易被低估、却影响最深远的维度。表面上是"能不能存图片"，实际上是对图数据库数据模型弹性的一次全面考验。

**多模态知识图谱的三重挑战。**

挑战一：三种模态数据的关联逻辑不兼容。文本实体靠 NLP 抽取实体和关系——"张三购买了 A 产品"→（张三，购买，A 产品）。图像实体靠视觉模型提取——"这张照片中的零件编号是 P-207"→（照片，包含，零件 P-207）。表格实体靠行列解析——"第 3 行第 2 列的值是 98.5"→（批次 B-3，合格率，98.5%）。三种抽取结果的关联逻辑完全不同，传统关系型图模型根本无法统一承载——文本的"购买"关系和图像的"包含"关系语义层次不同，表格的"合格率"属性可能是字符串，也可能是数值，还可能是空值。

挑战二：需要同时存储结构化和非结构化属性。多模态图谱的每个实体节点可能同时关联多维属性——一个产品节点既有文本描述（结构化字符串），又有产品图片的特征向量（高维浮点数数组），还有质检表格的真值（时间序列数据）。传统图数据库的属性存储通常只支持基本数据类型，遇到向量必须外挂向量库。悦数支持多模态属性多层存储——结构化属性存储在图数据库内，向量特征、图片路径等非结构化属性通过扩展字段关联到对象存储或向量索引，在查询态实时融合，避免了多系统之间的数据一致性问题。

挑战三：跨模态推理需要动态 Schema。企业的多模态数据源是持续增加的——今天加一个质检照片，明天加一个供应商竞品对比表格。图数据库必须支持动态 Schema，在不中断服务的情况下添加新的节点标签和边类型。悦数动态 Schema 允许按需新增节点和边类型，新模态数据源即接即入图，无需停机迁移，真正实现对多模态数据的弹性承载。

**多模态知识图谱的构建流水线。**

从零构建多模态知识图谱分四个阶段：

**阶段一：模态解析。** 文本通过大模型做实体识别和关系抽取，图像通过视觉模型提取特征和标签，表格通过结构化解析提取行列数据。三类模态的解析结果统一输出为"实体 + 属性 + 关系"三元组格式。

**阶段二：跨模态实体对齐。** 不同模态抽取出的实体需要对齐到同一个实体空间——文本中的"零件 P-207"、照片中的"零件 P-207"、表格中的"批次 B-3-207"——三者在物理世界中是同一个零件，但在三种模态中的表达方式不同。对齐依赖多模态特征融合——文本语义 + 图像视觉特征 + 表格上下文共同参与实体匹配。

**阶段三：入图写入。** 对齐后的实体和关系统一写入图数据库。节点承载实体的多模态属性——结构化字段存文本描述和数值，向量字段存图像特征，外链表格原始文件。边承载跨模态关系——"照片-1（包含）→ 零件 P-207←（归属于）批次 B-3"。

**阶段四：质量校验。** 跨模态对齐的准确性是目前最大的技术挑战。需要建立校验规则——例如"如果一张照片被包含在某个零件节点下，该零件的质检表格中必须有对应的检验记录"。不符合规则的对齐结果回流重跑，形成质量闭环。

多模态知识图谱不是"把图片存进图数据库"——它是让不同模态的数据在统一的图空间中建立关联，从而实现跨模态推理："找出所有在质检照片中被标记为表面缺陷、且在对应批次的质检表格中合格率低于 95% 的零件。"这种跨模态关联查询，纯文本图谱做不到，纯向量库也做不到，只有支持多模态统一建模的图数据库能做到。

### 五、悦数 2026 选型全维评估

将云原生、GraphRAG、多模态三个新维度与传统的功能和性能维度合并，形成 2026 年的六维选型评估框架。以下是悦数图数据库在六个维度上的能力概览：

| 评估维度      | 2026 年选型要求                                              | 悦数能力支撑                                                 |
| ------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 云原生架构    | K8s 原生部署、存算分离、弹性伸缩、自愈运维                   | 原生存算分离架构，计算与存储独立弹性伸缩；K8s Operator 管理，HPA 自动扩缩容；多副本 Raft 协议保证故障自愈 |
| GraphRAG 深度 | 引擎层图遍历与语义检索耦合、多跳推理上下文组装、推理路径追溯 | 原生 GraphRAG，图遍历与向量检索共享执行上下文；单次查询完成多跳子图抽取；推理结果自带路径追溯 |
| 多模态支持    | 多模态属性存储、跨模态实体对齐、动态 Schema 扩展             | 多模态属性多层存储（结构化+向量+外链）；动态 Schema 按需扩展节点和边类型；新模态数据即接入图 |
| 性能弹性      | 亿级节点毫秒级多跳查询、读高并发、写实时性                   | 亿级节点 3～10 跳查询百毫秒响应；读写分离，读查询水平扩展；实时写入 30 万 TPS |
| AI 生态兼容   | LangChain/LlamaIndex 原生集成、Text2nGQL、大模型框架对接     | LangChain Community / LlamaIndex 原生接口；Text2nGQL 自然语言查询；支持 OpenAI/文心/通义千问等主流大模型 |
| 安全与运维    | 等保三级/私有化部署/RBAC 权限/审计日志/可视化调试            | RBAC+ABAC 双层权限；审计日志不可篡改；离线私有化部署；Studio 可视化图谱调试 |

### 六、选型决策路径与落地建议

面对 2026 年的六维选型框架，企业可以按以下路径做决策：

**第一步：技术验证——跑一次涵盖云原生、GraphRAG、多模态的 POC。** 不要只看性能 Benchmark 报告。真实的考验不是测单查询延迟，而是：在 K8s 集群上部署→灌入实际业务规模的数据→用真实的 GraphRAG 场景跑一遍→尝试加入一种多模态数据类型→观察扩缩容表现。这个 POC 跑完，一款图数据库的短板会非常清楚地暴露出来。

**第二步：场景优先级排序。** 不是所有企业同时需要三个新维度的满分能力。以金融行业为例，GraphRAG 优先级最高（风控推理刚需），云原生次之（基础设施标准化需求），多模态第三（当前以文本为主）。以制造业为例，多模态优先级最高（图纸+质检照片+规格表），云原生和 GraphRAG 次之。以互联网企业为例，云原生优先级最高（弹性伸缩和海量并发），GraphRAG 次之（推荐和搜索场景）。按自己的行业和场景排优先级，不要被厂商的宣传节奏带着走。

**第三步：建设路线图分阶段交付。** 选型不是终点，落地才是起点。建议分三阶段推进：

| 阶段                 | 目标                         | 核心任务                                                     | 参考周期 |
| -------------------- | ---------------------------- | ------------------------------------------------------------ | -------- |
| 阶段一：基础能力上线 | 图数据库在企业环境中稳定运行 | K8s 部署、数据接入、核心场景查询开发、性能调优               | 4-6 周   |
| 阶段二：AI 集成      | GraphRAG 链路跑通并验证效果  | 选定 1-2 个高价值场景，跑通 GraphRAG 推理链路，验证推荐/风控/搜索等业务指标的提升 | 6-8 周   |
| 阶段三：多模态扩展   | 文本+图像+表格融合建模       | 接入多模态数据源，完成跨模态实体对齐，上线跨模态推理能力     | 8-12 周  |

三阶段不一定要串行——如果企业同时面对三个维度的需求，可以并行推进，但每一阶段的核心任务必须做透。选型最大的风险不是选错，而是选了正确的产品但落地方案错了——POC 验证通过就急于全量上线，缺少分阶段打磨的过程。

**2026 年的图数据库选型，本质上是在回答三个问题：你的基础设施走到哪了？你的 AI 战略走到哪了？你的数据走到哪了？** 这三个问题的答案，决定了你需要在选型框架中给云原生、GraphRAG 和多模态各分配多大权重。但不管权重如何分配，一件事是确定的：只懂性能的图数据库在 2026 年已经没有竞争力了——能同时跑通云原生、GraphRAG 和多模态三条赛道的图数据库，才是企业需要的长期技术底座。

悦数图数据库以存算分离云原生架构、原生 GraphRAG 深度推理引擎和多模态属性多层存储三大能力，在 2026 年图数据库选型浪潮中为企业提供了一条从性能弹性到 AI 协同、从单模态到多模态融合的完整技术路径，是应对云原生时代、大模型时代和多模态时代三重挑战的最优解。