多模态知识图谱来了：文本 + 图像 + 表格，图数据库如何统一建模？

一家医疗器械企业的知识库里有三种数据：数千份产品说明书（文本）、上万张设备故障现场照片（图像）、以及每月更新的质检报告统计表（表格）。工程师提问"III 型监护仪在高温环境下容易出什么故障"，系统返回了一堆文本片段，但它不知道那张标注了"散热风扇异常"的现场照片其实已经记录了同一故障的视觉证据，也不知道质检表格里连续三个月该型号的高温故障率在攀升。三种数据各自存储、各自检索，语义上完全割裂。

这不是个例。企业内部超过 70% 的知识以混合模态存在。合同里有文本条款和签字扫描件、研发文档里有设计图纸和技术参数表、客服工单里有用户描述和截图。大模型可以理解单模态内容，但当你问的问题需要同时关联文本描述、图像证据和表格数据时，单模态检索的天花板就暴露了。多模态知识图谱要解决的，正是把三种模态的数据纳入同一个图结构，让"跨模态关联推理"成为可能。 而图数据库，是这个统一建模框架的天然底座。

一、多模态知识为什么"拼不起来"

多模态知识融合不是新概念，但过去几年在企业里始终难以落地。核心障碍不在算力，不在模型能力，而在数据建模层面：三类模态的数据结构差异太大，传统存储方案无法在同一个框架内同时表达。

1.文本数据的特征是离散语义单元。 一段产品说明书由句子组成，句子由词语组成，语义通过词序和语法结构表达。文本适合用向量嵌入表示语义相似性，也适合用关键词索引做精确检索。但文本的局限是"看不见实体之间的关系结构"——两份文档都提到"散热风扇"，向量检索会告诉你它们语义相似，但不会告诉你其中一份是 III 型监护仪的说明书、另一份是 IV 型的故障报告，更不会告诉你这两份文档指向的设备之间存在供应链替代关系。

2.图像数据的特征是连续视觉特征。 一张故障现场照片的核心信息——设备型号、故障位置、异常状态，需要通过视觉模型提取为结构化标签或区域描述。但图像本身没有"关系"——两张照片之间的关联（同一设备不同时间、同一故障不同型号）必须依赖外部系统来建立。当图像存在对象存储中、标签存在标签库中、关联关系不存在任何地方时，跨图像的推理根本无从谈起。

3.表格数据的特征是结构化属性矩阵。 一份质检报告表格记录了"型号、批次、检测日期、高温测试结果、合格率"等字段。表格天然适合关系型数据库存储和 SQL 查询，但表格的局限是"行级数据，无跨表关联"，质检表格里的"III 型监护仪"和产品说明书里的"III 型监护仪"、故障照片里标注的"III 型监护仪"是同一个实体，但在三个系统中各有各的主键，没有统一的实体标识，无法自动关联。

三者的根本矛盾在于：文本靠语义相似性关联，图像靠视觉特征关联，表格靠主键外键关联——三套关联逻辑互相不兼容。 当用户问"III 型监护仪在高温环境下的故障表现"时，理想答案是三模态融合的，文本说明书中的高温工作参数 + 故障照片中的视觉异常 + 质检表格中的故障率趋势，但现有系统只能分别检索、各自返回，无法做到跨模态的关联推理。

二、图数据库为什么是多模态建模的天然底座

图数据库的核心数据结构：节点（Node）和边（Edge），天然具备统一表达异构数据的能力。多模态知识图谱的建模思路是：用节点表达所有实体（包括文本片段、图像、表格记录），用边表达所有关联（包括语义相似、视觉相似、实体共指、因果关系），用属性表达模态特征。

1.统一节点模型。 在多模态知识图谱中，节点不区分模态类型，而是通过标签（Tag）和属性来区分。一个"III 型监护仪"是一个实体节点，它的属性包括：产品编号、型号名称、高温工作上限（来自文本说明书）；它关联的故障照片是图像节点，图像节点的属性包括：图片 URL、视觉特征向量、标注标签、拍摄时间；它关联的质检记录是表格记录节点，表格记录节点的属性包括：批次号、检测日期、高温合格率。三种模态的数据被统一为不同类型的节点，但共享同一个实体标识（III 型监护仪），通过边连接为同一个子图。

2.多类型边表达跨模态关联。 图数据库的边可以携带类型和属性，这让它能精确表达不同模态之间的关联关系：

边类型	含义	示例
refers_to	文本片段指向实体	说明书段落 → III 型监护仪
depicts	图像描绘实体	故障照片 → 散热风扇部件
records	表格记录统计实体	质检行 → III 型监护仪批次
similar_to	同模态语义/视觉相似	故障照片 A → 故障照片 B
causes	因果关联	高温环境 → 散热风扇异常
co_occurs	共现关系	散热风扇异常 → 设备宕机

这张表只列了六种边类型，实际建模中可以根据业务需要定义任意类型。关键在于：图数据库不关心两端节点的模态——一条边可以连接一个文本节点和一个图像节点，也可以连接一个表格记录节点和一个实体节点。跨模态关联在图结构中被表达为普通的边遍历，与同模态遍历在查询语言层面完全一致。

三、多模态图谱的构建流水线：从原始数据到统一图结构

多模态知识图谱的构建不是一次性导入，而是一条持续运行的自动化流水线。四个阶段把异构原始数据转化为统一的图结构：

阶段一：模态解析。 三类原始数据分别经过模态专属解析器处理。文本通过 LLM 实体抽取和关系抽取，生成（实体, 关系, 实体）三元组；图像通过视觉模型（如 CLIP、目标检测模型）提取标签、区域描述和视觉特征向量；表格通过 schema 映射和实体链接，将每行记录转化为结构化属性集并关联到已有实体。每个解析器输出的是"待写入的节点和边"，格式统一，但来源模态不同。

阶段二：实体对齐。 这是多模态融合的关键难点。文本中说"III 型监护仪"，图像标注为"Model-III Monitor"，表格里写"型号III"——三个字符串不同，但指向同一个实体。实体对齐模块通过名称归一化、嵌入相似度匹配、上下文消歧三步策略，将不同模态的指代统一映射到图中的同一个实体节点。悦数动态 Schema 在这个阶段发挥重要作用——当对齐过程发现新的实体类型或新的关系类型时，可以无需停机直接添加，不影响已有数据的查询。

阶段三：入图写入。 对齐后的节点和边批量写入图数据库。悦数存算分离架构支持高吞吐写入与并发查询并行——流水线在持续写入新数据的同时，下游的问答系统可以实时查询最新图谱状态，写入不阻塞查询，查询不干扰写入。

阶段四：质量校验。 入图后通过图算法自动检测异常——孤立节点（有实体但无任何关联，可能是对齐失败）、冲突边（同一实体对被标注了矛盾的关系类型）、密度异常（某个实体突然出现大量边，可能是抽取错误）。校验结果反馈到阶段一的解析器，形成闭环迭代。

四、跨模态推理：大模型在多模态图谱上的四项能力

多模态知识图谱建好后，大模型的角色是从图上做跨模态推理——回答那些需要同时关联文本、图像和表格才能回答的问题。

能力一：跨模态实体关联问答。 用户问"III 型监护仪在高温环境下的故障表现"，GraphRAG 从图中找到"III 型监护仪"实体节点，沿边遍历找到关联的文本段落（说明书中的高温参数）、图像节点（故障照片）、表格记录（质检统计），将这些多模态上下文组装为增强提示词交给大模型。大模型在提示词中同时看到了文本描述、图像标签和数值统计，可以生成三模态融合的回答："根据产品说明书，III 型监护仪高温工作上限为 45°C；3 月 15 日的现场照片显示散热风扇出现异常；近三个月质检数据显示高温故障率从 2.1% 上升至 7.8%。"

能力二：视觉证据链追溯。 当大模型给出一个结论时，多模态图谱可以提供完整的证据链——不只是"文档说了什么"，还包括"哪张照片证明了什么""哪行表格数据支撑了什么"。用户追问"你说散热风扇异常，有照片吗？"，系统沿图遍历找到 depcits 边指向的图像节点，直接返回照片 URL 和标注信息。这种"结论→图像证据→表格数据"的追溯链，在医疗、法律、质检等高合规场景中价值极大。

能力三：Text2nGQL 跨模态查询。 业务人员不需要理解图查询语言，通过自然语言直接提问。悦数 Text2nGQL 将"找出所有高温故障率超过 5% 且有现场照片的型号"这样的自然语言转化为图查询——查询计划中既包含属性过滤（故障率 > 5%，在表格记录节点上过滤），也包含存在性检查（depicts 边存在，确保有照片），还包含实体聚合（按型号分组统计）。一次自然语言查询，跨三种模态完成检索。

能力四：多模态知识补全。 图谱中存在大量不完整的关联——某个实体有文本描述但没有图像、某条故障记录有照片但没有关联到具体型号。大模型可以通过图结构推理补全这些缺失——如果图像节点的视觉特征向量与已知"散热风扇异常"照片高度相似，且拍摄时间与某条故障记录吻合，大模型可以推断这条 depicts 边应该存在并自动建立关联。这种"基于图结构的多模态推理补全"让图谱越用越完整。

五、悦数五项核心能力

多模态知识图谱对底层图数据库提出了五项核心要求，悦数在每一项上都提供了原生支撑：

动态 Schema 支撑模态扩展。 多模态场景的节点和边类型会随业务演进而持续增长——今天接入产品说明书和故障照片，明天可能需要接入视频巡检记录和音频客服录音。悦数动态 Schema 允许在不中断服务的情况下添加新的节点标签和边类型，新模态数据即接即用，不需要重建索引或迁移数据。

多模态属性存储。 悦数支持在节点属性中同时存储结构化字段（文本标签、数值统计）、向量特征（图像/文本嵌入向量）和时间戳，使得"精确过滤 + 相似度检索 + 时序排序"可以在同一个查询计划中完成，无需在图数据库和向量数据库之间来回切换。

原生 GraphRAG 跨模态召回。 悦数 GraphRAG 不是在向量检索之上外挂图查询，而是在引擎层面将图遍历与语义检索深度耦合。跨模态问答时，一次 GraphRAG 调用可以从文本节点召回语义相似段落、从图像节点召回视觉相似照片、从表格节点召回属性匹配记录，组装为统一的多模态上下文交给大模型。

Text2nGQL 降低使用门槛。 业务人员用自然语言提问，Text2nGQL 自动生成跨模态图查询，无需理解 nGQL 语法。这让多模态图谱不只服务于技术团队，产品经理、质检工程师、客服人员都能直接查询。

Studio 可视化调试。 多模态图谱的调试比纯文本图谱更复杂——你需要看到节点是什么模态、边是什么类型、跨模态关联是否正确。悦数 Studio 提供图谱可视化界面，不同模态的节点用不同颜色标识，边类型可过滤展示，业务人员可以直观检查跨模态关联的正确性。