实体链接与消歧

第 14 章 · 知识图谱

文本里抽出了「爱因斯坦」「北京」这样的指称（mention），但要写入知识图谱，必须对应到知识库里的具体实体——例如 Wikidata 的 Q937、你本地的 ex:Einstein。这一步就是实体链接（Entity Linking, EL）：把文本中的指称映射到知识库中的实体（或判定为知识库中不存在，即 NIL）。当同一指称对应多个实体时——如「苹果」可能是苹果公司、也可能是水果——就需要消歧（Disambiguation），依靠上下文选出最可能的实体。本章把实体链接的任务定义、候选生成与排序、歧义与 NIL 处理、以及跨文档与跨语言实体链接讲清楚。

一、实体链接任务定义

实体链接（Entity Linking, EL）的输入是：文本中的指称（Mention）——即一个实体提及的 span（如「爱因斯坦」这三个字）——以及上下文（所在句子或文档）。输出是：该指称在给定知识库中对应的实体（Entity），通常用实体的 URI/ID 表示；若知识库中不存在对应实体，则输出NIL（表示未链接）。

因此，EL 解决的是「这段文字里的这个词，指的是知识库里哪一个（或哪一个都不是）」的问题。它与 NER 的区别：NER 只负责「这里有个实体、类型是 X」；EL 负责「这个实体是知识库里的谁」。与关系抽取的衔接：先 NER 得到 mention，再 EL 把 mention 链到实体，关系抽取得到的 (e1, r, e2) 中的 e1、e2 才能变成知识库中的 URI，从而写入图谱。

实体链接：输入指称与上下文，输出知识库实体或 NIL

二、候选生成与排序

实体链接通常拆成两步：候选生成（Candidate Generation）与排序（Ranking）。

候选生成：根据指称字符串，从知识库中找出「可能被指」的实体集合。常用方法包括：别名/标题表——知识库中实体的名称、别名、重定向项与指称做精确或模糊匹配；检索——用指称或指称+上下文在实体描述上做全文检索或向量检索，取 Top-K 作为候选。候选过多会拖慢排序、过少会漏掉正确答案，通常保留几十到几百个候选。

排序：对候选实体打分，选出最可能的一个（或返回 NIL）。排序依据包括：指称与实体名称/别名的相似度；上下文与实体描述、摘要的相似度（用 TF-IDF、BM25 或语义向量）；实体在知识图中的邻居与上下文中共现实体的关系（图一致性）；先验流行度（如 Wikipedia 点击率）。模型可以是特征+分类器、学习排序（Learning to Rank）、或端到端神经网络（编码 mention+context 与 entity 描述后做相似度）。

候选生成

别名表匹配、标题/重定向、检索（全文或向量）。目标：召回正确实体，控制候选数量。

排序

名称相似度、上下文与实体描述相似度、图一致性、流行度。学习排序或神经打分。

Q89
... 排序打分·选 Top1 Q312 指称 → 候选集 → 排序 → 最佳实体

候选生成 + 排序：指称与上下文 → 候选实体列表 → 排序 → 输出实体

实体链接全流程：候选生成 → 排序 → 按阈值输出实体或 NIL；消歧在排序阶段依上下文完成

三、歧义与消歧

同一指称往往对应知识库中的多个实体（同名异指），即歧义（Ambiguity）。例如「苹果」可能指苹果公司（Apple Inc.）、水果（Apple）、或其它名为 Apple 的实体。消歧即利用上下文（所在句子、文档、或对话主题）判断当前指称最可能指向哪一个实体。

典型做法：候选生成阶段已得到多个候选；排序阶段用「上下文与各候选实体的描述、摘要、邻居」的匹配度打分，选最高分。若最高分低于阈值，可返回 NIL 或「未知」。上下文信息越丰富（如文档中其它已链接实体、主题），消歧效果越好；也可利用协同实体链接（同一文档内多个指称一起决策，保证一致性）。

消歧：同一指称「Apple」依上下文选公司或水果实体

四、NIL 处理

当指称在知识库中没有对应实体时，应返回 NIL（或 Not In Knowledge Base）。常见情况：指称是新人名、新机构、笔名、或知识库未覆盖的领域实体。

NIL 的后续策略可以是：留空——该 mention 不链到任何实体，仅保留文本 span；创建新实体——在知识库中新增一个实体，并建立「该指称 → 新实体」的映射，需有实体创建与命名规范；放入待审核队列——由人工或后续流程决定是否建实体、或链到已有实体。排序模块通常设一个NIL 阈值：若最佳候选得分低于阈值，则输出 NIL。

NIL 处理策略

留空（不链接）；创建新实体并登记指称→实体；或进入待审核队列。排序时用阈值：得分低于阈值则判为 NIL。

五、跨文档与跨语言实体链接

跨文档实体链接：同一指称在多篇文档中出现时，可考虑文档内或跨文档一致性——例如同一文档中的「奥巴马」应尽量指向同一实体；多文档聚合时，可对同一指称的多次出现做投票或聚类，再统一链接结果。这对摘要、问答、知识库补全等场景有帮助。

跨语言实体链接：指称与知识库为不同语言（如中文指称「苹果公司」、英文知识库中为 Apple Inc.）。常用做法：多语言知识库（如 Wikidata 有多语言标签与描述），用指称翻译或跨语言检索找候选；跨语言嵌入——将指称与实体描述映射到同一向量空间再相似度排序；翻译——把指称或上下文译成知识库语言后再做单语链接。跨语言 EL 对构建多语言知识图谱、跨语言问答很重要。

跨语言实体链接：指称与知识库语言不同时的对齐方式

一句话： 实体链接把文本中的指称映射到知识库实体或 NIL。候选生成靠别名表与检索；排序靠名称/上下文相似度、图一致性、流行度。歧义时用上下文消歧；NIL表示无对应实体，可留空、建新实体或进审核。跨文档可做一致性约束；跨语言依赖多语言 KB、翻译或跨语言嵌入。

实践： 用 Wikidata API 或实体链接服务（如 REL、BLINK、或各云厂商的 EL API）对句子「Apple released the new iPhone」中的「Apple」做链接，观察返回的实体 ID 与描述；再换一句「I ate an apple」看是否消歧为水果实体。

六、小结

实体链接输入指称与上下文，输出知识库实体或 NIL。候选生成用别名表与检索；排序用名称/上下文/图/流行度。歧义时依上下文消歧；NIL可留空、建新实体或进审核。跨文档可做一致性；跨语言用多语言 KB、翻译或跨语言嵌入。下一章讲知识融合与对齐：多源知识的冲突与冗余、实体对齐与本体匹配、属性融合与真值发现。