
随着人工智能和大数据的爆炸式增长,如何合理地组织和表示海量的知识变得至关重要。知识图谱作为图数据,可以用来积累和传递现实世界的知识。知识图谱可以有效地表示复杂信息,因此,近年来迅速受到学术界和工业界的关注。为了加深对知识图谱的理解,本文对该领域进行了系统综述。
首先从两个方面回顾了知识图谱的发展机遇:(1)基于知识图谱构建的人工智能系统;(2)知识图谱的潜在应用领域。然后,深入讨论了该领域面临的知识图谱表示、知识获取、知识补全、知识融合和知识推理等技术挑战;本综述将为知识图谱的未来研究和发展提供新的思路。
01 引言
知识在人类的生存和发展中起着至关重要的作用。学习和表示人类知识是人工智能(AI)研究中的关键任务。虽然人类能够理解和分析周围环境,但AI系统需要额外的知识才能获得相同的能力并解决现实场景中的复杂任务(Ji et al, 2021)。为了支持这些系统,我们已经看到了根据不同的概念模型来表示人类知识的许多方法的出现。在过去十年中,知识图谱已经成为这一领域的标准解决方案,也是学术界和工业界的研究趋势(Kong et al, 2022)。
知识图谱被定义为积累和传递真实世界知识的数据图谱。知识图谱中的节点表示我们关注的实体,边表示实体之间的关系(Hogan et al, 2021;Cheng et al, 2022b)。这些表示利用了形式化语义,这使得计算机能够高效且无歧义地处理它们。例如,实体“比尔·盖茨”可以与实体“微软”联系起来,因为比尔·盖茨是微软的创始人;因此,他们在现实世界中是有关系的。
由于知识图谱在机器可读环境下处理异构信息方面的重要意义,近年来对这些解决方案持续开展了大量研究(Dai et al, 2020b)。所提出的知识图谱最近被广泛应用于各种人工智能系统(Ko等,2021;Mohamed et al, 2021),如推荐系统、问答系统和信息检索。它们也被广泛应用于许多领域(例如教育和医疗保健),以造福人类生活和社会。(Sun et al, 2020;Bounhas et al, 2020)。
尽管知识图谱可以提高人工智能系统的质量并且已经应用到各个领域,但是其研究仍然面临着重大的技术挑战。例如,现有的从多个来源获取知识并将其集成到典型的知识图谱中的技术存在很大的局限性。我们有必要对知识图谱进行机遇与挑战的分析,以更好地理解知识图谱。
为深入了解知识图谱的发展历程,全面分析了知识图谱面临的机遇和挑战。首先,本文从知识图谱显著提升人工智能系统性能和受益于知识图谱的应用领域两个方面讨论了知识图谱的机遇;然后,考虑到知识图谱技术的局限性,我们分析了知识图谱面临的挑战。本文的主要贡献如下:
· 知识图谱研究综述。对现有的知识图谱研究进行了全面的调研。详细分析了知识图谱的最新技术和应用进展。
· 知识图谱机遇。本文从基于知识图谱的人工智能系统和应用领域的角度,研究了知识图谱的潜在机会。研究了知识图谱对人工智能系统的好处,包括推荐系统、问答系统和信息检索。然后,通过描述知识图谱在教育、科研、社交媒体、医疗等各个领域的当前和潜在应用,探讨了知识图谱对人类社会的深远影响。
· 知识图谱挑战。本文对知识图谱面临的重大技术挑战提供了深入的见解。尤其是从知识表示、知识获取、知识图谱补全、知识融合和知识推理等5个方面,分析了目前具有代表性的知识图谱技术的局限性。
02 概述2.1 什么是知识图谱?
知识库是一种典型的数据集,它以三元组的形式表示现实世界中的事实和语义关系。当三元组被表示为一个边为关系、节点为实体的图时,它被认为是一个知识图谱。通常,知识图谱和知识库被视为同一个概念,可以互换使用。此外,知识图谱的模式可以定义为一个本体,它显示了特定领域的属性以及它们之间的关系。因此,本体构建是知识图谱构建的一个重要阶段。
2012年,谷歌首次提出了知识图谱,介绍了他们的知识库谷歌知识图谱(Ehrlinger and W¨oß, 2016)。随后,引入并采用了许多知识图谱,例如:
· DBpedia,它试图从维基百科中发现有语义意义的信息,并将其转化为DBpedia中一个有效的结构良好的本体知识库(Auer et al, 2007)。
· Freebase,一个基于多个来源的知识图谱,提供结构化和全球性的信息资源(Bollacker et al, 2008)。
· Facebook的实体图(entity graph),可以将用户配置文件的非结构化内容转换为有意义的结构化数据(Ugander et al, 2011)。
· Wikidata,一个跨语言的面向文档的知识图谱,支持许多网站和服务,如维基百科(Vrande ci´c and Kr¨otzsch, 2014)。
· Yago,是一个高质量的知识库,包含大量的实体及其对应关系。这些实体是从维基百科和WordNet等多个来源提取的(Rebele et al, 2016)。
· WordNet,是一个衡量单词之间语义相似度的词汇知识库。该知识库包含许多层次概念图来分析语义相似度(Pedersen et al, 2004)。
知识图谱是由节点和边组成的有向图,其中一个节点表示一个实体(真实对象或抽象概念),两个节点之间的边表达了两个实体之间的语义关系(Bordes et al, 2011)。资源描述框架(Resource Description Framework, RDF)和标签属性图(Labeled Property Graphs, LPGs)是两种典型的知识图谱表示和管理方法(F¨arber等,2018;博肯,2020)。知识图谱的基本单位是三元组(主语、谓语、宾语或头、关系、尾),即(比尔·盖茨,创始人,微软)。由于关系不一定是对称的,所以连接的方向很重要。因此,知识图谱也可以看成是头部实体通过关系边指向尾部实体的有向图。

图1描绘了一个基础知识图谱的例子。如图1所示,图中颜色变暗的节点e_1 和e_2 通过关系r连接,关系r从e_1 到e_2 。因此,e_1 、e_2 、r_1 可以形成三元组(e_1 、r_1 、e_2 ),其中e_2 分别是头实体e_1 和e_5 的尾实体。
近年来,大量的研究集中在对知识图谱的探索上。下面列出了当前该领域的7类重要研究。图2显示了关于知识图谱的最流行的研究路线的模式。其中,人工智能系统是利用知识图谱作为基础的服务,应用领域是知识图谱所触及的领域。列出这两条研究方向是为了探讨知识图谱的发展机遇。另外5个研究方向是5个主要的知识图谱技术,对应5个任务。原文对这5种技术进行了介绍,并强调了它们的局限性,为知识图谱面临的主要挑战提供了有益的启示。

图2 知识图谱研究
· 知识图谱嵌入:知识图谱嵌入是知识图谱嵌入研究的中心问题之一。该任务旨在将知识图谱中的实体和关系映射到低维向量空间,从而高效地捕捉知识图谱的语义和结构(Dai等,2020b)。然后,通过机器学习模型可以有效地学习得到的特征向量。三种主要的基于三元组事实的嵌入方法如下:(a)基于张量因子分解的,(b)基于翻译的,和(c)基于神经网络的方法(Dai et al, 2020b)。
· 知识获取:知识获取主要是对知识图谱进行建模和构建,是知识图谱研究的另一个重要研究方向。通常,知识是通过使用映射语言(如R2RML)从结构化来源导入的(Rodriguez- Muro and Rezk, 2015)。此外,知识可以从非结构化文档中(如新闻、研究论文和专利),采用关系、实体或属性的提取方法进行提取(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。
· 知识图谱补全:尽管构建知识图谱的方法有很多,但要建立一个领域内所有知识的全面表示仍然是不可实现的。大多数知识图谱仍然缺乏大量的实体和关系。因此,对知识图谱的补全进行了大量的研究。知识图谱补全技术旨在通过预测新增的关系和实体来提高知识图谱的质量。第一个任务通常采用链接预测技术生成三元组,然后对三元组的可信度评分进行分配(Ji et al, 2021)。第二个任务采用实体预测方法来获取和整合来自外部来源的更多信息。
· 知识融合:知识融合也是一个重要的研究方向,专注于捕获不同来源的知识,并将其集成到知识图谱中(Nguyen et al, 2020)。知识融合方法对于知识图谱的生成和完善都有重要意义。最近,实体对齐已经成为实现知识融合任务的主要方法。
· 知识推理:通过推理来丰富知识图谱,旨在基于现有数据推断新的事实(Minervini et al, 2020),是目前的研究热点。特别是,在两个不相连的实体之间推断出新的关系,形成新的三元组。而且,通过推理出虚假的事实,知识推理具有识别错误知识的能力。知识推理的主要方法包括基于逻辑规则的方法、基于分布式表示的方法和基于神经网络的方法(Chen et al, 2020b)。
· 人工智能系统:如今,知识图谱被推荐、问答系统和信息检索工具等人工智能系统(Liang et al, 2022)广泛使用。通常情况下,知识图谱中丰富的信息可以提高解决方案的性能。因此,许多研究侧重于利用知识图谱来提高人工智能系统的性能。
· 应用领域:知识图谱在教育、科学研究、社交媒体和医疗保健等各个领域都有众多应用(Li et al, 2020b)。提高人类生活水平,需要各种智能应用。
与其他工作不同,本文重点关注知识图谱的机遇与挑战。特别是,随着人工智能服务质量的提高,知识图谱在各个领域的应用将迎来巨大的机遇。与此同时,知识图谱技术的局限性是其面临的挑战。因此,本文将讨论知识图谱表示、知识获取、知识图谱补全、知识融合、知识推理等方面的技术局限性。
03 面向人工智能系统的知识图谱
本节通过分析知识图谱对提高人工智能系统的功能所带来的优势,来说明它所带来的机遇。具体来说,有几个系统,包括推荐系统、问答系统和信息检索工具(Guo et al, 2020;邹,2020),将知识图谱用于输入数据,并从知识图谱中获益最大。除了这些系统,其他人工智能系统,如图像识别系统(Chen et al, 2020a),也开始考虑知识图谱的特征。不过,知识图谱在这些系统中的应用并不广泛,这些系统也并没有直接利用知识图谱对输入数据进行性能优化。为此,原文中详细讨论了知识图谱为推荐系统、问答系统和信息检索工具带来的优势,分析了知识图谱的发展机遇。通常,这些解决方案可以从采用知识图谱中获益,这些图谱提供了高质量的领域知识表示。表1展示了我们将在下面讨论的AI系统的摘要。

04 应用和潜力
在本节中,我们将讨论知识图谱在教育、科学研究、社会网络和健康/医疗保健四个领域的应用和潜力。尽管一些研究人员试图利用知识图谱开发其他领域的有益应用,如金融(Cheng et al, 2022c),但基于知识图谱的智能服务在这些领域相对模糊,仍然需要探索。因此,本节主要围绕教育、科研、社会网络、医疗等方面,对知识图谱的机遇进行总结。表2给出了知识图谱在这些领域的几个最新应用。

05 技术挑战
虽然知识图谱为各种服务和应用提供了极好的机会,但仍有许多挑战有待解决(Noy等,2019)。具体而言,现有知识图谱技术的局限性是推动知识图谱发展的关键挑战(Hogan et al, 2021)。因此,本节从知识图谱嵌入、知识获取、知识图谱补全、知识融合和知识推理这5种热门知识图谱技术的局限性出发,讨论知识图谱面临的挑战。
5.1 知识图谱的嵌入
知识图谱嵌入的目标是在低维向量空间中有效表示知识图谱,同时仍保留其语义(Xia et al, 2021;Vashishth et al, 2020)。首先,将实体和关系嵌入到给定知识图谱的稠密维空间,并定义评分函数衡量每个事实(三元组)的可信性;然后,最大化事实的似然性以获得实体和关系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知识图谱的表示为下游任务带来了诸多好处。基于三元组事实的知识图谱嵌入方法主要有3类:基于张量因子化的方法、基于翻译的方法和基于神经网络的方法(Rossi et al, 2021)。
5.1.1 基于张量因子分解的方法
基于张量因子分解方法的核心思想是将知识图谱中的三元组转化为3D张量(Balazevi´c et al, 2019)。如图5所示,张量X\in R_m\times m\times n ,其中m和n分别表示实体和关系的数量,包含n个切片,每个切片对应一种关系类型。当满足条件X_{ijk}=1 时,知识图谱中存在三元组(e_{ij},r_k,e) ,其中e和r分别表示实体和关系。否则,当X_{ijk}=0 时,表示知识图谱中不存在这样的三元组。那么,张量由由实体和关系的向量组成的嵌入矩阵表示。
5.1.2 基于翻译的方法
基于翻译的方法利用了基于翻译不变性的评分函数。翻译不变性解释两个词的向量之间的距离,这是由它们的语义关系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻译不变性的评分函数进行度量嵌入结果。

他们创造性地提出了TransE模型,该模型将知识图谱中所有的实体和关系转换到一个连续的低向量空间中。具体来说,三元组中头部和尾部实体的向量由它们关系的向量连接起来。因此,在向量空间中,每个三元组的语义含义都被保留了下来。形式上,给定一个三元组(头、关系、尾),头实体、关系、尾实体的嵌入向量分别是h、r、t。在向量空间中,三元组(h, r, t)的似真度由基于平移不变性的评分函数计算,以确保它遵循几何原理:h + r≈t。
在TransE之后,相关的扩展不断被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻译的知识图谱表示的性能。
5.1.3 基于神经网络的方法
目前,深度学习已经成为知识图谱表示的流行工具,有相当多的研究提出使用神经网络表示知识图谱的三元组(Dai et al, 2020a)。在本节中,以SME、ConvKB和R-GCN这3个代表性的工作为例,对基于神经网络的知识图谱表示进行简要介绍。
SME (Bordes et al, 2014)设计了一个能量函数来进行语义匹配,该能量函数利用神经网络来度量知识图谱中每个三元组(h, r, t)的置信度。SME的评分函数定义如下:
SME (bilinear)的评分函数为:
5.1.4 现有方法的局限性
现有的知识图谱嵌入方法仍然存在严重的局限性。许多已有的方法只考虑知识图谱的表面事实(三元组)。然而,忽略了实体类型和关系路径等附加信息,这些信息可以进一步提高嵌入精度。大多数不考虑附加信息的传统方法的性能并不令人满意。表3列出了不考虑附加信息的嵌入方法。在表3中,性能评估是基于链接预测和三元组分类任务。用于评估结果的指标是命中率为10 (Hits@10)和准确率。如表3所示,只有少数模型有令人印象深刻的结果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的结果。
近年来,一些研究人员开始将附加信息与知识图谱结合起来,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的实体类型信息,即每个实体的语义类别,来获得实体之间的相关性,并解决数据稀疏问题。因此,知识图谱的表示更加准确。不仅是实体类型,有些其他信息,包括关系路径(Li et al, 2021)、动态图的时间信息(Messner et al, 2022)和实体的文本描述(An et al, 2018),近年来也得到了研究人员的关注。然而,如何有效利用丰富的附加信息来提高知识图谱表示的准确性仍然是一个艰巨的挑战。
一般附加信息不能充分表示三元组的语义。例如,实体类型与三元组的语义信息无关。此外,可以纳入三元组特征的附加信息的类型现在受到了严重的限制。因此,为了提高现有知识图谱嵌入方法的性能,需要在三元组特征中融入多元信息(如关系的分层描述、实体类型与文本描述的结合)。
就我们所知,复杂关系路径仍然是一个开放的研究问题(Peng et al, 2021)。例如,内在关系,指的是两个不相连的实体之间的间接关系,没有被有效地表示出来。虽然通过知识图谱中的关系链可以挖掘实体间的内在关系,但实体间的内在关系复杂多样。因此,有效地表示这些关系并不是一件容易的事情。
5.2 知识获取




