实体识别与抽取

知识图谱里的实体从哪来? 很多来自非结构化文本——新闻、网页、报告里的「爱因斯坦」「北京」「2024 年」需要被自动找出来、标上类型(人、地点、时间等),才能进入图谱或交给后续的实体链接与关系抽取。这就是实体识别与抽取(Entity Recognition / NER):从文本中识别实体边界类型。方法既有基于规则与词典的(可控、可解释),也有基于学习的命名实体识别(NER)与序列标注;在领域数据少或分布不同时,还需要领域适配与少样本策略。本章把任务定义、规则与词典方法、NER 与序列标注、以及领域适配与少样本讲清楚。

一、任务定义:从文本中识别实体边界与类型

实体识别(Entity Recognition)的输入是一段非结构化文本,输出是文本中的实体片段(Span)及其类型(Type)。例如输入:「爱因斯坦 1921 年 在 斯德哥尔摩 获得 诺贝尔物理学奖。」输出可以是:(爱因斯坦, Person)、(1921年, Time)、(斯德哥尔摩, Place)、(诺贝尔物理学奖, Award)。边界即字符或词级别的起止位置;类型通常来自预定义集合(如 PER、LOC、ORG、TIME,或更细的领域类型)。

该任务与实体链接(Entity Linking)不同:识别只负责「这里有一个实体、类型是 X」,不负责「这个实体对应知识库里的哪个 URI」;链接是下一步,在后续章节讨论。实体识别是知识图谱构建流水线的第一环:先抽实体,再抽关系、再做链接与融合。

实体识别:输入文本,输出 (span, type) 列表

二、基于规则与词典的方法

在标注数据少、或实体形态较规则时,可用规则词典做识别。

优点:可解释、易调试、不依赖标注数据;适合领域固定、实体形式较规范的场景。局限:难以覆盖多样表述、新实体与歧义;规则膨胀后维护成本高。实践中常与学习模型结合:规则做高置信召回,模型做细粒度与长尾。

三、命名实体识别(NER)与序列标注

命名实体识别(Named Entity Recognition, NER)把任务形式化为序列标注:对每个词(或字)打一个标签,表示「是否属于某类实体的开始/内部/外部」。常用标注方案有 BIO:B-XXX 表示某类实体的开始,I-XXX 表示该实体的后续词,O 表示非实体。例如:「爱因斯坦 在 巴黎 工作」→ B-PER, O, B-LOC, O。还有 BIOES(E 为实体结束,S 为单字实体),便于还原 span。

模型从早期的CRFBiLSTM-CRF,到现在的预训练语言模型 + 分类头(如 BERT 接一个线性层对每个 token 预测标签)。类型集通常包含 PER、LOC、ORG、TIME 等;领域图谱可扩展为 Disease、Drug、Product 等。训练需要标注数据(每个 token 的标签);可用公开 NER 数据集(如 CoNLL-2003)或自建领域语料。

Einstein B-PER   in O   Stockholm B-LOC   in O   1921 O
BIO 标注示例:每个词对应一个标签,B-* 为实体首词,O 为非实体
词与 BIO 标签一一对应,还原后得 (Einstein, PER)、(Stockholm, LOC)

规则与词典

正则、词表匹配、上下文规则;可解释、无标注依赖;适合格式规整、领域固定。

NER / 序列标注

BIO(BIOES)、CRF/BiLSTM-CRF/预训练+头;需标注数据;泛化与长尾更好。

领域适配与少样本

微调、少样本提示、主动学习;解决领域偏移与标注不足。

四、领域适配与少样本

通用 NER 模型在新闻等语料上训练,迁移到医疗、法律、金融等领域时,往往出现领域偏移:术语不同、句式不同、实体类型不同。此时需要领域适配

领域适配:通用 NER + 领域数据 → 领域专用 NER

一句话: 实体识别从非结构化文本中识别实体边界与类型,是图谱构建流水线的上游。规则与词典适合格式规整、可解释;NER/序列标注(BIO、CRF、预训练+头)泛化更好但需标注。领域适配与少样本通过微调、提示、主动学习与词典辅助,解决领域偏移与标注不足。识别只产出 span+类型,与知识库的对应由下一环实体链接完成。

实践: 用 Hugging Face 的 transformers 加载一个 NER 模型(如 bert-base-NER 或中文 NER),对一段中英文混合文本做预测,观察 BIO 标签与还原的实体;再尝试用正则或简单词典匹配同一段文本,对比覆盖与误报。

五、小结

实体识别输入文本、输出 (span, type);与实体链接区分开。规则与词典:正则、词表、上下文规则,可解释、无标注,适合规整场景。NER:BIO/BIOES 序列标注,CRF/BiLSTM-CRF/预训练+头,需标注数据。领域适配:微调、少样本、主动学习、词典辅助,应对领域偏移与标注少。下一章讲关系抽取方法:从文本中抽「谁与谁、什么关系」。