悦数图数据库

首页>博客>行业科普>图数据库的概念和几个关键内容

图数据库的概念和几个关键内容

图数据库

图数据库的概念

“图数据库” 起源于“图论” 中的拓扑概念。“图论” 研究图的性质和结构,“图数据库” 利用这些理论存储和管理数据。

图,是由“点”和“边”构成的。拓扑学将实体抽象为节点,关系表示为边。

图数据库中,“点” 就是计算节点,“边” 就是点之前的关系。这种抽象的概念,让我们可以聚焦的去研究点与线之间的关系,实现数据关联查询与分析。

图思维,跟我们的大脑思考方式是非常类似的,包括现在的深度机器学习也是图的。

图结构,能够以“更高维”的方式表达知识,比传统的RDB关系型数据库更厉害。

图数据库跟关系型数据库的差异对比

传统的关系型数据库,是二维的。主要是存,把计算外包给中间件。分析的时候,需要跨表关联。这就是实时分析很困难、需要等待的原因。图数据库是既存又算的。

图结构可以高效地进行各种图遍历和计算操作,例如查找最短路径。另外,许多图数据库具有良好的并行计算能力,图数据库可以将计算任务分配到多个计算节点上并行执行,从而大大缩短计算时间。

从低维表(二维表),向高维表(网络拓扑)发展,可以说是一个“质” 的跃迁。

图计算领域的常用算法

相似度算法,是图计算领域最常见的算法。可以用于衡量图中节点之间的相似程度,以便发现具有相似特征或功能的节点,在推荐系统、生物信息学等领域有广泛应用。

最短路径算法:例如在交通网络中,用于寻找两点之间的最短行驶路径;在通信网络中,确定信息传输的最短路径等。

PageRank 算法:主要用于衡量网页的重要性。在互联网搜索引擎中,通过分析网页之间的链接关系,计算每个网页的 PageRank 值,以此来确定网页的排名。

社区发现算法:用于发现图中联系紧密的节点群体,即社区结构。这些社区内部的节点之间连接较为紧密,而与社区外部的节点连接相对较少。

对于AI来说,图计算是一个强有力的力量

为什么图计算对机器学习有帮助呢?因为图计算的主流趋势是白盒化可解释,这可以很好解决当前深度学习中黑盒问题。

白盒化可解释的图计算能够清晰地展示数据之间的关联、计算过程和结果的推导,使业务人员能够更好地理解和信任计算结果,从而更放心地基于这些结果进行决策。

此外,白盒化可解释的图计算能够实现数据的溯源和审计,便于追踪数据的来源、处理过程和使用情况。

【图未来能够用在哪些场景】

目前的观点是:图数据库几乎没有限制。只要有足够的算力,就可以对大规模数据集进行有效的计算。

金融欺诈检测中,图数据库可以实时分析交易数据和账户关系,及时发现可疑的交易行为,而不需要将数据导出到外部系统进行计算,从而大大提高了欺诈检测的时效性。

在医疗领域,图数据库可以帮助医疗决策系统分析患者的病历、症状、检查结果等信息,为医生提供诊断和治疗建议。

在军事领域,美国军方供应商 Palantir 利用图技术,基于转账数据、图像数据、录音数据、GIS数据等,帮助美国军方计算出本拉登的定位,并进行了定点进攻。