实体链接与消歧
一、实体链接任务定义
实体链接(Entity Linking, EL)的输入是:文本中的指称(Mention)——即一个实体提及的 span(如「爱因斯坦」这三个字)——以及上下文(所在句子或文档)。输出是:该指称在给定知识库中对应的实体(Entity),通常用实体的 URI/ID 表示;若知识库中不存在对应实体,则输出NIL(表示未链接)。
因此,EL 解决的是「这段文字里的这个词,指的是知识库里哪一个(或哪一个都不是)」的问题。它与 NER 的区别:NER 只负责「这里有个实体、类型是 X」;EL 负责「这个实体是知识库里的谁」。与关系抽取的衔接:先 NER 得到 mention,再 EL 把 mention 链到实体,关系抽取得到的 (e1, r, e2) 中的 e1、e2 才能变成知识库中的 URI,从而写入图谱。
二、候选生成与排序
实体链接通常拆成两步:候选生成(Candidate Generation)与排序(Ranking)。
候选生成:根据指称字符串,从知识库中找出「可能被指」的实体集合。常用方法包括:别名/标题表——知识库中实体的名称、别名、重定向项与指称做精确或模糊匹配;检索——用指称或指称+上下文在实体描述上做全文检索或向量检索,取 Top-K 作为候选。候选过多会拖慢排序、过少会漏掉正确答案,通常保留几十到几百个候选。
排序:对候选实体打分,选出最可能的一个(或返回 NIL)。排序依据包括:指称与实体名称/别名的相似度;上下文与实体描述、摘要的相似度(用 TF-IDF、BM25 或语义向量);实体在知识图中的邻居与上下文中共现实体的关系(图一致性);先验流行度(如 Wikipedia 点击率)。模型可以是特征+分类器、学习排序(Learning to Rank)、或端到端神经网络(编码 mention+context 与 entity 描述后做相似度)。
候选生成
别名表匹配、标题/重定向、检索(全文或向量)。目标:召回正确实体,控制候选数量。
排序
名称相似度、上下文与实体描述相似度、图一致性、流行度。学习排序或神经打分。
三、歧义与消歧
同一指称往往对应知识库中的多个实体(同名异指),即歧义(Ambiguity)。例如「苹果」可能指苹果公司(Apple Inc.)、水果(Apple)、或其它名为 Apple 的实体。消歧即利用上下文(所在句子、文档、或对话主题)判断当前指称最可能指向哪一个实体。
典型做法:候选生成阶段已得到多个候选;排序阶段用「上下文与各候选实体的描述、摘要、邻居」的匹配度打分,选最高分。若最高分低于阈值,可返回 NIL 或「未知」。上下文信息越丰富(如文档中其它已链接实体、主题),消歧效果越好;也可利用协同实体链接(同一文档内多个指称一起决策,保证一致性)。
四、NIL 处理
当指称在知识库中没有对应实体时,应返回 NIL(或 Not In Knowledge Base)。常见情况:指称是新人名、新机构、笔名、或知识库未覆盖的领域实体。
NIL 的后续策略可以是:留空——该 mention 不链到任何实体,仅保留文本 span;创建新实体——在知识库中新增一个实体,并建立「该指称 → 新实体」的映射,需有实体创建与命名规范;放入待审核队列——由人工或后续流程决定是否建实体、或链到已有实体。排序模块通常设一个NIL 阈值:若最佳候选得分低于阈值,则输出 NIL。
NIL 处理策略
留空(不链接);创建新实体并登记指称→实体;或进入待审核队列。排序时用阈值:得分低于阈值则判为 NIL。
五、跨文档与跨语言实体链接
跨文档实体链接:同一指称在多篇文档中出现时,可考虑文档内或跨文档一致性——例如同一文档中的「奥巴马」应尽量指向同一实体;多文档聚合时,可对同一指称的多次出现做投票或聚类,再统一链接结果。这对摘要、问答、知识库补全等场景有帮助。
跨语言实体链接:指称与知识库为不同语言(如中文指称「苹果公司」、英文知识库中为 Apple Inc.)。常用做法:多语言知识库(如 Wikidata 有多语言标签与描述),用指称翻译或跨语言检索找候选;跨语言嵌入——将指称与实体描述映射到同一向量空间再相似度排序;翻译——把指称或上下文译成知识库语言后再做单语链接。跨语言 EL 对构建多语言知识图谱、跨语言问答很重要。
一句话: 实体链接把文本中的指称映射到知识库实体或 NIL。候选生成靠别名表与检索;排序靠名称/上下文相似度、图一致性、流行度。歧义时用上下文消歧;NIL表示无对应实体,可留空、建新实体或进审核。跨文档可做一致性约束;跨语言依赖多语言 KB、翻译或跨语言嵌入。
六、小结
实体链接输入指称与上下文,输出知识库实体或 NIL。候选生成用别名表与检索;排序用名称/上下文/图/流行度。歧义时依上下文消歧;NIL可留空、建新实体或进审核。跨文档可做一致性;跨语言用多语言 KB、翻译或跨语言嵌入。下一章讲知识融合与对齐:多源知识的冲突与冗余、实体对齐与本体匹配、属性融合与真值发现。