知识图谱补全与链接预测

第 25 章 · 知识图谱

知识图谱常常是「不完整」的：很多真实存在的关系并未被录入。链接预测（Link Prediction）也叫知识图谱补全（KGC），目标就是预测缺失的三元组——例如给定 (爱因斯坦, 获得奖项, ?) 预测尾实体「诺贝尔物理学奖」。方法大致分两类：基于规则（从图中学规则，用规则推断新链接）与基于表示学习（把实体和关系嵌入向量空间，用模型打分）。评估常用 MRR、Hit@k；训练与评估还涉及负采样与开放世界假设。本章把任务定义、两类方法、指标与假设讲清楚。

一、链接预测任务定义

链接预测的输入是知识图谱 G（三元组集合），输出是对「可能成立但未在 G 中出现」的三元组的预测。常见子任务：尾实体预测——给定 (h, r, ?)，从实体集中为 ? 排序或选 Top-k；头实体预测——给定 (?, r, t)，预测头实体；关系预测——给定 (h, ?, t)，预测关系类型。通常将 G 划分为训练集与测试集（有时还有验证集），测试时对每个查询 (h, r, ?) 或 (?, r, t) 在全体实体上排序，用正确答案的排名或是否出现在 Top-k 来评估。

形式化：记三元组 (h, r, t)，h 为头实体、r 为关系、t 为尾实体。尾实体预测即给定 (h, r)，在候选实体中给每个 t' 打分，按分数排序；头实体预测对称。关系预测则在给定 (h, t) 时对关系 r 排序。

链接预测：尾实体预测 (h, r, ?)、头实体预测 (?, r, t)；对候选排序并评估

二、基于规则与基于表示学习的方法

基于规则：从图中挖掘规则（如「若 bornIn(x,y) 且 locatedIn(y,z) 则 nationality(x,z)」），或人工编写规则。预测时用规则对候选三元组打分（能由规则推导则得分高），或结合置信度与支持度做排序。优点是可解释、能利用符号逻辑；缺点是对稀疏关系或长路径规则挖掘难、规则集可能不完整。

基于表示学习（嵌入）：将实体与关系映射到向量空间，用模型定义三元组 (h, r, t) 的得分函数（如 TransE 的 ‖h + r − t‖、ComplEx 的复数内积）。训练时用正样本（图中已有三元组）与负样本（随机替换头或尾）做排序损失或交叉熵；预测时对候选实体按得分排序。下一章会详述 TransE、RotatE、ComplEx 等模型。优点是可泛化、易扩展到大图；缺点是可解释性较弱。

Rule-based

Mine or handcraft rules; score candidates by rule application; interpretable, may miss patterns.

Embedding (KGE)

Embed entities and relations; score (h,r,t) by model; train with positive + negative samples; scalable, less interpretable.

基于规则：挖掘规则后按规则匹配打分；基于嵌入：学习表示后按模型得分排序

三、评估指标：MRR 与 Hit@k

对每个测试查询（如 (h, r, ?)），模型对所有候选尾实体排序，记正确答案的排名为 rank（1-based）。MRR（Mean Reciprocal Rank） = 所有查询的 (1/rank) 的均值；排名越靠前 MRR 越高。Hit@k = 正确答案出现在 Top-k 的查询占比（通常 k=1, 3, 10）；Hit@1 最严格，Hit@10 较宽松。

细节：Raw vs Filtered——Filtered 设置下，排序时去掉所有在训练+测试中出现的 (h, r, t')（避免把已存在的三元组误判为「预测」），只比未出现的；Raw 则不过滤。报告时常用 Filtered MRR 与 Hit@k。头实体与尾实体预测可分别算指标再取平均。

指标小结

MRR = mean(1/rank). Hit@k = proportion of queries where correct answer is in top-k. Filtered: exclude known triples from ranking. Higher is better.

评估：按正确答案的排名算 MRR；按是否在 Top-k 算 Hit@k；Filtered 设置排除已知真三元组

四、负采样与开放世界假设

负采样：训练嵌入模型时，正样本是图中的三元组；负样本通常由「随机替换头或尾实体」得到（如 (h, r, t) 的正样本对应负样本 (h', r, t) 或 (h, r, t')，h'/t' 从实体集随机采）。若不做约束，负样本可能碰巧是图中未记录但为真的三元组（假负）；可用类型约束（只替换同类型的实体）或过滤（若负样本已在图中则重采）减轻。负采样数量与策略影响训练稳定与效果。

开放世界假设（OWA）：知识图谱中「未出现的三元组」并不等价于「假」——只是未被观察到。因此评估时，把测试三元组从训练集排除是正确的（避免泄露）；但排名时若采用 Filtered 设置，我们只排除「已知为真」的三元组，其余候选一律视为候选，不假定为假。这与封闭世界假设（CWA，未出现即假）不同；链接预测通常采用 OWA 更符合实际。

负采样：正样本来自图，负样本多由随机替换得到；开放世界假设：未观察到≠假

一句话： 链接预测（知识图谱补全）预测缺失三元组：尾实体 (h,r,?)、头实体 (?,r,t)、或关系 (h,?,t)。方法：基于规则（挖掘/手写规则、按规则打分）与基于表示学习（嵌入、得分函数、负采样训练）。评估：MRR、Hit@k；Filtered 排除已知真三元组。负采样用随机替换构造负样本；开放世界下未观察到不视为假。

实践： 用 PyKEEN、DGL-KE 或 PyTorch Geometric 在 FB15k-237 或 WN18RR 上跑一个 TransE 或 ComplEx 链接预测实验，记录 Filtered MRR 与 Hit@10；再与规则方法（如 AMIE）或简单基线（随机/流行度）对比。

五、小结

链接预测任务为预测缺失的 (h,r,t)，分为尾/头/关系预测。基于规则与基于嵌入两类方法；评估用 MRR、Hit@k，常用 Filtered 设置。负采样与开放世界假设影响训练与评估设计。下一章详述表示学习与嵌入：TransE、RotatE、ComplEx 等 KGE 模型，以及嵌入在补全、检索与下游任务中的应用。