知识图谱补全与链接预测

知识图谱常常是「不完整」的:很多真实存在的关系并未被录入。链接预测(Link Prediction)也叫知识图谱补全(KGC),目标就是预测缺失的三元组——例如给定 (爱因斯坦, 获得奖项, ?) 预测尾实体「诺贝尔物理学奖」。方法大致分两类:基于规则(从图中学规则,用规则推断新链接)与基于表示学习(把实体和关系嵌入向量空间,用模型打分)。评估常用 MRRHit@k;训练与评估还涉及负采样开放世界假设。本章把任务定义、两类方法、指标与假设讲清楚。

一、链接预测任务定义

链接预测的输入是知识图谱 G(三元组集合),输出是对「可能成立但未在 G 中出现」的三元组的预测。常见子任务:尾实体预测——给定 (h, r, ?),从实体集中为 ? 排序或选 Top-k;头实体预测——给定 (?, r, t),预测头实体;关系预测——给定 (h, ?, t),预测关系类型。通常将 G 划分为训练集与测试集(有时还有验证集),测试时对每个查询 (h, r, ?) 或 (?, r, t) 在全体实体上排序,用正确答案的排名或是否出现在 Top-k 来评估。

形式化:记三元组 (h, r, t),h 为头实体、r 为关系、t 为尾实体。尾实体预测即给定 (h, r),在候选实体中给每个 t' 打分,按分数排序;头实体预测对称。关系预测则在给定 (h, t) 时对关系 r 排序。

链接预测:尾实体预测 (h, r, ?)、头实体预测 (?, r, t);对候选排序并评估

二、基于规则与基于表示学习的方法

基于规则:从图中挖掘规则(如「若 bornIn(x,y) 且 locatedIn(y,z) 则 nationality(x,z)」),或人工编写规则。预测时用规则对候选三元组打分(能由规则推导则得分高),或结合置信度与支持度做排序。优点是可解释、能利用符号逻辑;缺点是对稀疏关系或长路径规则挖掘难、规则集可能不完整。

基于表示学习(嵌入):将实体与关系映射到向量空间,用模型定义三元组 (h, r, t) 的得分函数(如 TransE 的 ‖h + r − t‖、ComplEx 的复数内积)。训练时用正样本(图中已有三元组)与负样本(随机替换头或尾)做排序损失或交叉熵;预测时对候选实体按得分排序。下一章会详述 TransE、RotatE、ComplEx 等模型。优点是可泛化、易扩展到大图;缺点是可解释性较弱。

Rule-based

Mine or handcraft rules; score candidates by rule application; interpretable, may miss patterns.

Embedding (KGE)

Embed entities and relations; score (h,r,t) by model; train with positive + negative samples; scalable, less interpretable.

基于规则:挖掘规则后按规则匹配打分;基于嵌入:学习表示后按模型得分排序

三、评估指标:MRR 与 Hit@k

对每个测试查询(如 (h, r, ?)),模型对所有候选尾实体排序,记正确答案的排名为 rank(1-based)。MRR(Mean Reciprocal Rank) = 所有查询的 (1/rank) 的均值;排名越靠前 MRR 越高。Hit@k = 正确答案出现在 Top-k 的查询占比(通常 k=1, 3, 10);Hit@1 最严格,Hit@10 较宽松。

细节:Raw vs Filtered——Filtered 设置下,排序时去掉所有在训练+测试中出现的 (h, r, t')(避免把已存在的三元组误判为「预测」),只比未出现的;Raw 则不过滤。报告时常用 Filtered MRR 与 Hit@k。头实体与尾实体预测可分别算指标再取平均。

指标小结

MRR = mean(1/rank). Hit@k = proportion of queries where correct answer is in top-k. Filtered: exclude known triples from ranking. Higher is better.

评估:按正确答案的排名算 MRR;按是否在 Top-k 算 Hit@k;Filtered 设置排除已知真三元组

四、负采样与开放世界假设

负采样:训练嵌入模型时,正样本是图中的三元组;负样本通常由「随机替换头或尾实体」得到(如 (h, r, t) 的正样本对应负样本 (h', r, t) 或 (h, r, t'),h'/t' 从实体集随机采)。若不做约束,负样本可能碰巧是图中未记录但为真的三元组(假负);可用类型约束(只替换同类型的实体)或过滤(若负样本已在图中则重采)减轻。负采样数量与策略影响训练稳定与效果。

开放世界假设(OWA):知识图谱中「未出现的三元组」并不等价于「假」——只是未被观察到。因此评估时,把测试三元组从训练集排除是正确的(避免泄露);但排名时若采用 Filtered 设置,我们只排除「已知为真」的三元组,其余候选一律视为候选,不假定为假。这与封闭世界假设(CWA,未出现即假)不同;链接预测通常采用 OWA 更符合实际。

负采样:正样本来自图,负样本多由随机替换得到;开放世界假设:未观察到≠假

一句话: 链接预测(知识图谱补全)预测缺失三元组:尾实体 (h,r,?)、头实体 (?,r,t)、或关系 (h,?,t)。方法:基于规则(挖掘/手写规则、按规则打分)与基于表示学习(嵌入、得分函数、负采样训练)。评估:MRR、Hit@k;Filtered 排除已知真三元组。负采样用随机替换构造负样本;开放世界下未观察到不视为假。

实践: 用 PyKEEN、DGL-KE 或 PyTorch Geometric 在 FB15k-237 或 WN18RR 上跑一个 TransE 或 ComplEx 链接预测实验,记录 Filtered MRR 与 Hit@10;再与规则方法(如 AMIE)或简单基线(随机/流行度)对比。

五、小结

链接预测任务为预测缺失的 (h,r,t),分为尾/头/关系预测。基于规则基于嵌入两类方法;评估用 MRRHit@k,常用 Filtered 设置。负采样开放世界假设影响训练与评估设计。下一章详述表示学习与嵌入:TransE、RotatE、ComplEx 等 KGE 模型,以及嵌入在补全、检索与下游任务中的应用。