GQL图模式匹配原理与应用

GQL是一种基于图数据模型的面向对象的语义查询语言，它是一种具有图结构用户界面（GUI）和操作对象（Object）的高级编程语言。GQL语言中有大量的模式匹配操作，如基本的“搜索”、“匹配”等。本文通过对 GQL中模式匹配的基本操作进行详细分析，阐述了 GQL中模式匹配的原理和方法，并通过一个简单的例子说明了模式匹配在 GQL系统中的应用。

定义

GQL图模式匹配是指从一个图数据模型中的一个节点出发，返回与该节点相关联的另一个节点。通常情况下，图中的节点可以是实体、属性或者关系。在图数据模型中，每个节点都有一个唯一的 ID （或者称为路径 ID），表示该节点在图中的位置。对于给定的图，通过连接两个节点（或者称为路径），可以找到其中的一个节点。

GQL图模式匹配是一种基于图论的操作，它由模式匹配算法和 GQL查询组成。模式匹配算法是一种基于图理论的匹配算法，它是把一个问题描述为一个图模型。在这个问题中，问题的关键在于确定某个特定节点上元素是否为某条路径上元素。当问题描述为图模型时，这个问题就可以转化为给定一个图，在这张图中寻找某条路径上元素的问题。

为了实现模式匹配，需要定义两个基本概念：一是路径；二是模式。路径是由节点连接起来形成的一条路径，而模式则是两个节点之间相关联的一条路径。

GQL图模式匹配查询中使用的匹配算法称为模式匹配算法。它由两个步骤组成：（1）识别和确定数据所代表的实体或属性；（2）找到所识别出的实体或属性之间可能存在的“路径”或“模式”。如果数据中包含多个实体或属性，则可能存在多条路径和多个模式；（3）确定所要查找对象中最可能存在的那条路径和那个模式；（4）如果在查询中没有发现匹配，则返回“不匹配”结果。

模式匹配是 GQL语言中最为重要、应用最为广泛、且最具挑战性的操作之一。GQL语言中定义了很多基本操作和方法，如：“匹配”、“搜索”、“重排”等，它们在 GQL系统中都有着广泛的应用。

匹配操作的基本过程

GQL图模式匹配中的匹配操作包括两种类型：一种是基于模式匹配的匹配操作，另一种是基于查询的匹配操作。模式匹配是一种基于模式的匹配算法，在这种算法中，一个节点中包含多个节点之间的模式，每个节点都与其对应的多个节点相关联。当查询时，首先将查询中所要匹配的属性映射到对应的图中，然后查找图中所有节点对应的模式，如果找到对应的模式则返回结果给查询者，否则返回错误结果。

GQL图模式匹配有三种类型：（1）基于模式搜索（Pattern search）：根据节点在图中的位置搜索其中包含相应模式元素（或属性）的图。当所找到的节点包含多个模式元素时，将其与其中一个模式元素进行比较。如果该节点包含多个相同元素且与另一个节点有某种属性关联时，则返回结果。（2）基于查询进行匹配：查询中所要匹配的属性与某个特定图中包含相应数据元素相关联。（3）基于模式匹配和查询进行组合：将多个表之间进行组合。

GQL图模式匹配的分类

基本的匹配操作包括“匹配”、“排序”、“删除”和“添加”等，这四种基本操作组成了 GQL系统中模式匹配的整个过程。

1.匹配：将输入中的数据和一组已知数据进行比较，如果找到相同的数据则认为是匹配，否则认为不是。 2.排序：将输入中的数据按照某种规则进行排序，如果找到了一个已知数据大于输入中所有数据时，就认为是排序。 3.删除：将输入中的数据删除，即将输入中不存在的数据进行删除。 4.添加：将输入中不存在的数据添加到已有数据中。 5.添加和删除都属于基本操作，它们之间可以相互转化。例如“添加”和“删除”可以相互转换为“添加”和“删除”。 6.特殊操作是在基本操作的基础上进行操作，即在进行匹配时，需要对输入中的某种组合进行特殊处理才能完成匹配。例如“搜索”需要在输入模式下进行搜索，而“匹配”则需要在输入模式下进行搜索。 7.高级操作是对基本操作和特殊操作的综合，它涉及到了上述所有基本操作和特殊操作。例如“查询”、“排序”、“删除”和“添加”等都是高级操作。高级操作只能通过将输入模式转换为相应的组合模式来实现，而不能直接通过代码实现。

匹配的基本算法

模式匹配是一种非常重要的计算，其目的是找出给定数据集中的所有对象的子集。其基本过程包括以下几个步骤： 1.从数据集中选取一个匹配集合（匹配项）。 2.计算每个匹配项的相似度，若匹配项的相似度大于给定的阈值（一般设为0.9），则认为该数据集中没有这个匹配项。否则将待匹配数据集中的所有对象选取出来作为已有匹配项，即开始新一轮的计算。 3.若某个匹配项的相似度大于给定阈值，则将该数据集中所有对象选取出来作为已有匹配项；否则将待匹配数据集中所有对象选取出来作为新一轮的计算。 4.将上述步骤循环进行直到所有数据集中没有匹配项为止。 5.将待匹配对象集合中的元素（即匹配项）进行排序，得到一个有序集合。然后根据序列为匹配项建立一个有序表，并为该有序表找到一个最大匹配值，即为该数据集中最相似的对象。 6.最后对排序后的数据集进行相应处理，使之成为符合一定要求的新数据集。

模式匹配在 GQL中的应用举例

假设有一个名为“小红”的用户，他的数据表包含一组“小红”，的属性分别为“小红、小红的朋友”。当用户要求查询“小红的母亲是谁？”可以这样查询，此时，系统中有一个名为“小红”的图数据库，在图数据库中搜索“小红的母亲是谁？”，并返回结果集给用户。

上述例子中，图数据库包含两个节点：“小红”和“小红的母亲”，以及一个边：“小红的父亲”。为了查询这个图数据库，需要使用 GQL语言进行模式匹配操作。

在此将模式匹配作为一个基本操作来介绍。在上述例子中，如果要查询用户名为“小红”的数据表，就可以使用以下 GQL程序进行模式匹配：

首先定义一个名为“小红”的图数据库作为 GQL语言中的数据表，然后通过模式匹配操作在图数据库中搜索“小红”。

查找结果：在图数据库中找到了小红、其母亲和其朋友这三个节点。在此过程中，使用了两个操作：1)查找结果集；

2)使用模式匹配操作搜索到了数据表。

经过行业多年的讨论和行动，图查询语言 GQL（Graph Query Language）在 2024 年 4 月 12 日正式发布。GQL 是由国际标准化组织（ISO）和国际电工委员会（IEC）共同制定的图数据库查询语言标准，正式编号为 ISO/IEC 39075。GQL 为管理和查询图数据确立了统一的标准。

与此同时，作为国内图数据库领域的先驱，悦数图数据库正式发布原生支持 GQL 的全新新版本。该版本在继续提升分布式图数据库能力的同时，从概念定义、数据存储、计算框架、解析和执行计划等对齐 GQL 标准，完整支持 GQL 标准里的数据查询语言(DQL)、数据操控语言(DML)和数据定义语言(DDL)，而并非是对 GQL 的简单兼容或适配，从而帮助企业用户全面拥抱 GQL，完整赋能基于 GQL 标准的分布式图数据库的能力。