实体链接与消歧

文本里抽出了「爱因斯坦」「北京」这样的指称(mention),但要写入知识图谱,必须对应到知识库里的具体实体——例如 Wikidata 的 Q937、你本地的 ex:Einstein。这一步就是实体链接(Entity Linking, EL):把文本中的指称映射到知识库中的实体(或判定为知识库中不存在,即 NIL)。当同一指称对应多个实体时——如「苹果」可能是苹果公司、也可能是水果——就需要消歧(Disambiguation),依靠上下文选出最可能的实体。本章把实体链接的任务定义、候选生成与排序、歧义与 NIL 处理、以及跨文档与跨语言实体链接讲清楚。

一、实体链接任务定义

实体链接(Entity Linking, EL)的输入是:文本中的指称(Mention)——即一个实体提及的 span(如「爱因斯坦」这三个字)——以及上下文(所在句子或文档)。输出是:该指称在给定知识库中对应的实体(Entity),通常用实体的 URI/ID 表示;若知识库中不存在对应实体,则输出NIL(表示未链接)。

因此,EL 解决的是「这段文字里的这个词,指的是知识库里哪一个(或哪一个都不是)」的问题。它与 NER 的区别:NER 只负责「这里有个实体、类型是 X」;EL 负责「这个实体是知识库里的谁」。与关系抽取的衔接:先 NER 得到 mention,再 EL 把 mention 链到实体,关系抽取得到的 (e1, r, e2) 中的 e1、e2 才能变成知识库中的 URI,从而写入图谱。

实体链接:输入指称与上下文,输出知识库实体或 NIL

二、候选生成与排序

实体链接通常拆成两步:候选生成(Candidate Generation)排序(Ranking)

候选生成:根据指称字符串,从知识库中找出「可能被指」的实体集合。常用方法包括:别名/标题表——知识库中实体的名称、别名、重定向项与指称做精确或模糊匹配;检索——用指称或指称+上下文在实体描述上做全文检索或向量检索,取 Top-K 作为候选。候选过多会拖慢排序、过少会漏掉正确答案,通常保留几十到几百个候选。

排序:对候选实体打分,选出最可能的一个(或返回 NIL)。排序依据包括:指称与实体名称/别名的相似度上下文与实体描述、摘要的相似度(用 TF-IDF、BM25 或语义向量);实体在知识图中的邻居与上下文中共现实体的关系(图一致性);先验流行度(如 Wikipedia 点击率)。模型可以是特征+分类器、学习排序(Learning to Rank)、或端到端神经网络(编码 mention+context 与 entity 描述后做相似度)。

候选生成

别名表匹配、标题/重定向、检索(全文或向量)。目标:召回正确实体,控制候选数量。

排序

名称相似度、上下文与实体描述相似度、图一致性、流行度。学习排序或神经打分。


Q89
... 排序 打分·选 Top1 Q312 指称 → 候选集 → 排序 → 最佳实体
候选生成 + 排序:指称与上下文 → 候选实体列表 → 排序 → 输出实体
实体链接全流程:候选生成 → 排序 → 按阈值输出实体或 NIL;消歧在排序阶段依上下文完成

三、歧义与消歧

同一指称往往对应知识库中的多个实体(同名异指),即歧义(Ambiguity)。例如「苹果」可能指苹果公司(Apple Inc.)、水果(Apple)、或其它名为 Apple 的实体。消歧即利用上下文(所在句子、文档、或对话主题)判断当前指称最可能指向哪一个实体。

典型做法:候选生成阶段已得到多个候选;排序阶段用「上下文与各候选实体的描述、摘要、邻居」的匹配度打分,选最高分。若最高分低于阈值,可返回 NIL 或「未知」。上下文信息越丰富(如文档中其它已链接实体、主题),消歧效果越好;也可利用协同实体链接(同一文档内多个指称一起决策,保证一致性)。

消歧:同一指称「Apple」依上下文选公司或水果实体

四、NIL 处理

当指称在知识库中没有对应实体时,应返回 NIL(或 Not In Knowledge Base)。常见情况:指称是新人名、新机构、笔名、或知识库未覆盖的领域实体。

NIL 的后续策略可以是:留空——该 mention 不链到任何实体,仅保留文本 span;创建新实体——在知识库中新增一个实体,并建立「该指称 → 新实体」的映射,需有实体创建与命名规范;放入待审核队列——由人工或后续流程决定是否建实体、或链到已有实体。排序模块通常设一个NIL 阈值:若最佳候选得分低于阈值,则输出 NIL。

NIL 处理策略

留空(不链接);创建新实体并登记指称→实体;或进入待审核队列。排序时用阈值:得分低于阈值则判为 NIL。

五、跨文档与跨语言实体链接

跨文档实体链接:同一指称在多篇文档中出现时,可考虑文档内或跨文档一致性——例如同一文档中的「奥巴马」应尽量指向同一实体;多文档聚合时,可对同一指称的多次出现做投票或聚类,再统一链接结果。这对摘要、问答、知识库补全等场景有帮助。

跨语言实体链接:指称与知识库为不同语言(如中文指称「苹果公司」、英文知识库中为 Apple Inc.)。常用做法:多语言知识库(如 Wikidata 有多语言标签与描述),用指称翻译或跨语言检索找候选;跨语言嵌入——将指称与实体描述映射到同一向量空间再相似度排序;翻译——把指称或上下文译成知识库语言后再做单语链接。跨语言 EL 对构建多语言知识图谱、跨语言问答很重要。

跨语言实体链接:指称与知识库语言不同时的对齐方式

一句话: 实体链接把文本中的指称映射到知识库实体或 NIL。候选生成靠别名表与检索;排序靠名称/上下文相似度、图一致性、流行度。歧义时用上下文消歧;NIL表示无对应实体,可留空、建新实体或进审核。跨文档可做一致性约束;跨语言依赖多语言 KB、翻译或跨语言嵌入。

实践: 用 Wikidata API 或实体链接服务(如 REL、BLINK、或各云厂商的 EL API)对句子「Apple released the new iPhone」中的「Apple」做链接,观察返回的实体 ID 与描述;再换一句「I ate an apple」看是否消歧为水果实体。

六、小结

实体链接输入指称与上下文,输出知识库实体或 NIL。候选生成用别名表与检索;排序用名称/上下文/图/流行度。歧义时依上下文消歧;NIL可留空、建新实体或进审核。跨文档可做一致性;跨语言用多语言 KB、翻译或跨语言嵌入。下一章讲知识融合与对齐:多源知识的冲突与冗余、实体对齐与本体匹配、属性融合与真值发现。