悦数图数据库

首页>博客>行业科普>当推荐系统遇上知识图谱——为什么协同过滤和图推理是绝配?

当推荐系统遇上知识图谱——为什么协同过滤和图推理是绝配?

推荐系统知识图谱

推荐系统领域有一个长期存在的"两难困境"。

协同过滤在大数据量下效果出色,但它是"黑盒"的——它能告诉你"和你相似的人喜欢这个",却说不清楚"为什么这个对你有价值"。内容推荐(Content-Based Filtering)能解释推荐理由,但它依赖准确的内容特征标注,无法感知用户行为背后的偏好演化。

无论选哪一边,都像只用一只手打拳——力量折半,盲点不消。

知识图谱 + 图推理的出现,给了这个问题一个不同方向的答案:不是在两种算法之间做选择,而是用图结构把它们的优势缝合在一起。

一、协同过滤的天花板在哪里

要理解为什么图推理是协同过滤的绝配,需要先把协同过滤的天花板说清楚。

协同过滤的核心假设是:行为相似的用户,偏好也相似。 通过用户-物品交互矩阵(User-Item Matrix),找到行为模式接近的用户群体,把他们喜欢但目标用户还没接触的物品推出去。这套逻辑在数学上是合理的,在互联网规模的数据下确实有效。

但它有三个根深蒂固的天花板:

天花板一:数据稀疏性。 用户-物品矩阵在现实中极度稀疏——绝大多数用户只对极少数物品产生过互动。新用户没有历史行为,新物品没有互动记录,矩阵中充满空白,相似度计算的基础就不扎实。协同过滤在冷启动场景下几乎无法工作。

天花板二:无语义推理能力。 协同过滤能发现"用户A和用户B点击了相同的内容",但它无法理解"为什么这个内容对用户A有价值",也无法推断"如果用户A喜欢X,那么因为X和Y在知识上有关联,用户A可能也会喜欢Y"。推荐路径无法解释,推荐质量依赖数据量而非理解深度。

天花板三:流行度偏差(Popularity Bias)。 由于行为矩阵的密集区域集中在热门物品上,协同过滤天然倾向于推荐热门内容。长尾物品因为行为数据稀少,很难出现在推荐结果里。这加速了平台内容生态的"马太效应",也使个性化程度越来越表面。

这三个天花板不是工程实现的问题,而是算法设计的根本局限。协同过滤需要一个伙伴,来补它看不见的地方。

二、知识图谱能补上什么

知识图谱本质上是一张描述实体及其关系的结构化网络。在推荐系统中,知识图谱通常包含:

  • 物品知识图谱:电影与导演、演员、类型、主题的关联;商品与品牌、材质、适用场景的关联;内容与话题、作者、引用文献的关联。这些关系都是"语义层面"的,不依赖用户行为数据。

  • 用户属性图谱:用户的社交关系(关注/好友)、地理位置、职业标签、兴趣标签与物品类别之间的映射关系。

  • 跨域关系:用户A喜欢科幻小说,知识图谱中"科幻小说"与"人工智能"有强关联,系统可以推断用户A可能对AI相关纪录片感兴趣——这是一条跨越内容类型边界的推荐路径。

当知识图谱以图数据库的形式存储时,这种多跳语义推理可以做到实时计算。"从用户感兴趣的话题出发,经过知识图谱的关系边,找到三跳以内与之相关但用户尚未消费的内容"——这类查询在悦数图数据库中,亿级规模下响应时间在 100~300 毫秒以内,满足在线推荐服务的实时性要求。

知识图谱带来了协同过滤缺失的三样东西:

  1. 可解释路径:推荐结果可以附带"为什么推给你"的图路径解释,不再是黑盒输出。
  2. 冷启动能力:新用户或新物品可以通过知识图谱的语义关联获得初始推荐,不依赖历史行为积累。
  3. 跨领域发现:图推理可以沿着知识关联边探索用户潜在兴趣的"相邻领域",打破行为数据的边界。

三、为什么两者是绝配而非替代

协同过滤和图推理各自都有短板,但它们的短板和优势恰好是互补的。

协同过滤的优势是统计能力——在大规模行为数据下,它能捕捉到人类无法言明的"隐性偏好模式",发现那些看起来毫无关联但实际上高度相关的物品组合(比如"买了尿不湿的用户也爱买啤酒"这类反直觉关联)。但它的短板是"没有语义",不理解内容本身的含义和关系。

图推理的优势是语义能力——它理解内容之间的逻辑关系,可以沿知识路径进行推断。但图推理的短板是"没有统计",纯粹的图推理不知道哪条知识路径对用户更重要,所有路径在语义上都同等合法,无法排序。

两者的结合方式是信号互补,而不是简单叠加:

  • 用协同过滤提供"哪些物品对这个用户重要"的统计信号,作为图推理的起点。
  • 用图推理沿知识图谱探索"与这些重要物品相关的未见物品",扩展候选集。
  • 用图结构特征(物品在知识图谱中的中心度、与用户已消费内容的路径距离)作为协同过滤的补充特征,提升模型的语义理解深度。

这种融合在学界被称为 KGCN(Knowledge Graph Convolutional Network)KGAT(Knowledge Graph Attention Network) 系列方法,是目前推荐系统研究的前沿方向。工业界的头部平台都在不同程度上引入了知识图谱来增强推荐能力。

四、融合推荐的三条技术实现路径

在工程落地层面,知识图谱与协同过滤的融合有三条主流路径,各有适用场景:

路径一:候选集扩展(Graph-based Candidate Generation)。 协同过滤生成初始候选集,图数据库对每个候选物品向外扩展 2~3 跳知识关联,获得语义相关的补充候选。最终候选集融合两个来源,再经过精排模型打分。

这条路径工程改动最小,对现有推荐系统侵入最少,适合作为融合推荐的第一步。悦数图数据库在此场景中承担的是"实时子图扩展"的计算任务,提供知识关联维度的候选召回。

路径二:图特征注入(Graph Feature Enrichment)。 将知识图谱中的图结构特征——物品的 PageRank 值(知识重要性)、物品间的最短路径距离(语义接近度)、用户感兴趣实体的邻域分布——提取出来,作为特征向量注入协同过滤模型(如 DeepFM、DIN)中,提升模型的语义理解能力。

这条路径适合已有成熟精排模型的团队,通过引入图特征来"升级"现有模型,而非重建推荐链路。

路径三:端到端图神经网络(Graph Neural Network)。 将用户-物品交互图和知识图谱统一建模为异构图,用图神经网络同时学习行为信号和语义信号,输出融合两者的表示向量(Embedding)用于推荐。

这条路径效果最好,但工程复杂度也最高,适合推荐系统基础设施成熟、有足够的算法工程人力的团队。图数据库在此场景中作为图神经网络训练和推理的数据底座,提供高效的子图采样和实时图更新能力。

五、悦数图数据库在融合推荐中的核心角色

维度 协同过滤单独 图推理单独 悦数图数据库 + 协同过滤融合
冷启动 无法处理 基于知识图谱可处理 两者互补,新用户可用图推理,老用户行为更精准
可解释性 无(黑盒相似度) 有(图路径) 有,支持路径级别的推荐解释
长尾内容分发 弱(偏向热门) 较好(语义关联不受热度影响) 显著改善,知识图谱可为长尾内容建立语义通路
跨域推荐 无法实现 依赖知识图谱质量 支持跨内容类型语义推断
实时性 高(矩阵检索快) 取决于图查询性能 悦数百毫秒多跳查询,满足在线服务要求
个性化深度 依赖行为数据量 依赖知识图谱覆盖度 行为数据 + 知识结构双维度,个性化更深

亿级图规模实时多跳查询: 知识图谱的语义扩展需要实时图遍历,悦数在十亿级节点规模下支持 3~6 跳查询稳定在 100~300 毫秒,保障在线推荐服务的低延迟要求。在离线训练场景中,悦数还支持高效的批量子图采样,支撑图神经网络的训练数据准备。

原生 GraphRAG 语义融合: 内容知识图谱的构建需要将文本语义与图结构结合——一篇文章的话题关联、一个商品的描述语义,都需要从非结构化文本中提取再写入图谱。悦数原生 GraphRAG 架构支持向量检索与图结构检索的混合召回,让推荐候选集能同时融合语义相似度和关系邻近度。

动态 Schema 支撑知识图谱演化: 推荐场景中的知识图谱是活的——新的内容类型出现、新的标签体系建立、新的用户行为维度引入,都需要图谱结构的动态扩展。悦数动态 Schema 支持无停机热变更,确保知识图谱能够随业务快速迭代,不成为推荐能力升级的瓶颈。

Louvain 社区发现辅助协同过滤: 协同过滤的一个工程优化方向是对用户群体进行预聚类,在同一社群内做协同过滤以降低计算复杂度。悦数内置 Louvain 算法,可以基于用户社交图或行为相似图自动发现用户社群,为协同过滤提供高质量的用户分组,同时这些社群结构本身也是推荐特征的重要来源。

Text2nGQL 降低图谱查询门槛: 推荐系统的运营和算法团队并不都熟悉图查询语言。悦数 Text2nGQL 支持用自然语言描述图查询需求,自动生成 nGQL 查询语句,让非图数据库专家也能快速对知识图谱进行探索性分析,加速推荐策略的迭代。

六、落地路线:从协同过滤到图谱增强推荐的三阶段升级

知识图谱推荐不需要推倒现有系统重建,完全可以在现有协同过滤体系上分阶段叠加:

阶段 建设重点 关键里程碑 参考周期
第一阶段:知识图谱建设 构建物品知识图谱(内容标签层级、物品关联关系),导入图数据库,验证图推理召回效果 完成核心品类知识图谱入图,冷启动推荐点击率可观察提升,长尾内容曝光比例改善 6~10 周
第二阶段:候选集融合 协同过滤召回与图推理召回并联,在精排层融合两个来源,A/B 测试量化图推理的增量贡献 整体推荐 CTR/CVR 可观察提升,推荐多样性指标(用户接触话题广度)改善 3~4 个月
第三阶段:深度融合 图特征注入精排模型,或探索 GNN 端到端方案,GraphRAG 接入实现可解释推荐 个性化深度显著提升,长尾内容分发效率大幅改善,推荐可解释性支撑运营策略优化 3~6 个月

协同过滤诞生于互联网的早期,知识图谱则是AI时代的产物。把这两个不同时代的技术放在同一张图上,用悦数图数据库作为连接它们的基础设施,不是"新旧替换",而是一次真正意义上的"优势叠加"。

协同过滤告诉推荐系统"谁喜欢什么",知识图谱告诉推荐系统"为什么喜欢"——当两者同时工作,推荐系统才第一次同时拥有了统计智慧和语义理解。