质量评估与持续演进

第 35 章 · 知识图谱

知识图谱不是「建完就收工」，而是要在使用中持续评估与改进。质量维度——准确性（事实是否正确）、完整性（该有的有没有）、一致性（是否自相矛盾）、时效性（是否过时）——构成评估的四个支柱；评估方法与基准数据集为自动化与人工评估提供标尺；质量监控与迭代改进把评估嵌入流水线，形成「测—改—再测」闭环；Schema 演进策略则回答：当业务与知识变化时，类型与关系如何安全地增删改。本章把质量评估与持续演进讲清楚。

一、质量维度：准确性、完整性、一致性、时效性

准确性（Accuracy）：单条知识或抽取结果是否与真实世界一致。对三元组而言，即 (主体, 关系, 客体) 是否属实；对实体链接而言，即链接到的实体是否正确。可通过抽样与黄金集对比、或众包/专家标注得到准确率、精确率与召回率（在抽取场景下）。

完整性（Completeness）：知识是否「该有的都有」——关键实体是否覆盖、关键关系是否齐全、某类查询是否能有答案。完整性难以绝对度量，常通过覆盖率（如某领域实体数/应有实体数）、抽样空缺分析（随机查询无结果的比例）、或与参考 KG/业务清单对比来近似。

一致性（Consistency）：知识内部是否无逻辑矛盾。例如同一实体不能同时具有互斥的属性值；关系与本体约束相符（定义域/值域、基数）；无重复或冲突的三元组（同一 (s, r) 多个 o 且语义互斥）。一致性可通过规则检查、本体推理或冲突检测算法发现并修复。

时效性（Timeliness / Freshness）：知识是否不过时。对随时间变化的事实（如职务、股价），需有更新机制与「最后更新时间」等元数据；时效性指标可包括「数据平均年龄」「关键实体最后更新距今天数」等，并据此触发更新或告警。

Accuracy

Factually correct; precision, recall vs gold set; sampling, expert/crowd annotation.

Completeness

Coverage; key entities/relations; gap analysis; compare to reference or checklist.

Consistency

No contradiction; domain/range, cardinality; duplicate or conflicting triples.

Timeliness

Fresh; update cycle; last-modified metadata; alert when stale.

质量四维：准确性、完整性、一致性、时效性

二、评估方法与基准数据集

抽样与黄金集：从 KG 或抽取结果中抽样，由人工或专家标注正确性，得到准确率、精确率、召回率等。黄金集（Gold set）即已标注的标准答案，用于自动化评估——如实体链接的黄金 mention–entity 对、关系抽取的黄金三元组、QA 的黄金问答对。评估时可将系统输出与黄金集对比，计算 F1、Hit@k 等。

基准数据集（Benchmarks）：公开基准便于复现与对比。典型包括——链接预测：FB15k、FB15k-237、WN18、WN18RR、YAGO3-10 等；实体链接：AIDA、MSNBC、ACE 等；知识图谱问答：WebQuestions、ComplexWebQuestions、LC-QuAD 等；信息抽取：RE 与 NER 的各类 SemEval/CoNLL 风格数据集。使用基准时需注意数据划分、泄露与领域适配。

自动化指标与人工评估：自动化指标（如与黄金集的 F1、无黄金集时的规则一致性得分）可高频运行；人工评估（抽样标注、用户满意度）成本高但更贴近真实质量。实践中常结合：自动指标做日常监控与回归，人工评估做定期校准与深度分析。

评估方法：抽样与黄金集、公开基准、自动化与人工评估

三、质量监控与迭代改进

质量监控：将评估嵌入流水线，定期或触发式执行。例如：每次增量更新后对新增三元组做抽样准确率检查；对关键实体做完整性扫描（必填属性是否缺失）；用规则引擎做一致性扫描；对时效敏感数据做「最后更新时间」统计与告警。监控结果可写入仪表盘、指标库，并设置阈值告警（如准确率低于 X、空缺率高于 Y 时告警）。

问题分类与修复：发现的问题可按类型分类——错误数据（需修正或删除）、缺失数据（需补充抽取或人工补全）、冲突（需冲突解决策略）、过时（需触发更新）。修复流程可包括：自动规则修复（如去重、格式规范化）、人工工单（将问题派给领域专家或标注员）、以及反馈到抽取模型（用错误样本做再训练或规则调整）。

迭代改进：形成「测—改—再测」闭环。定期发布质量报告、与业务方对齐优先级、迭代 schema 与抽取规则、并更新黄金集与基准，使下一轮评估更贴合目标。数据与模型双轮驱动：数据层面清洗与补全，模型层面调参、重训或引入新模型。

质量监控与迭代：KG/流水线 → 测量 → 修复与改进 → 闭环

Monitor–Fix–Iterate

Embed quality checks in pipeline; alert when metrics drop. Classify issues (accuracy, completeness, consistency, timeliness); fix via rules, human tickets, or model retrain. Re-measure and adjust targets; update gold set and schema as needed.

四、Schema 演进策略

业务与知识会变化，KG 的类型（实体类型）与关系也需随之演进：新增类型或关系、废弃旧有设计、或调整约束（如基数、定义域/值域）。Schema 演进需兼顾向后兼容与数据迁移。

新增类型/关系：在现有 schema 上增加新实体类型或关系类型，通常对已有数据无破坏；需更新本体文档、抽取配置与下游消费方。若新类型与旧类型有子类/等价关系，需在模型中声明以便推理与查询兼容。

废弃与迁移：当某类型或关系不再使用时，可标记为废弃（deprecated）而非立即删除——保留一段时间，在文档与查询中提示替代方案，并将已有数据逐步迁移到新类型或新关系。迁移脚本需考虑数据量、停机与回滚策略。

版本与兼容：Schema 可带版本号（如 v1.0, v1.1）；查询与 API 可支持多版本或「默认最新」。向后兼容策略：新版本尽量不删除必填项、不改变已有类型的语义，仅做扩展；若必须破坏性变更，则提供迁移指南与过渡期。

治理流程：Schema 变更宜经评审（领域专家、数据与平台团队）— 评估对现有数据、抽取与下游的影响；变更后更新文档、通知消费方，并做回归测试与质量复测。

Schema 演进：新增、废弃与迁移、版本与兼容、治理

一句话： 质量四维——准确性（事实正确）、完整性（覆盖与空缺）、一致性（无矛盾）、时效性（新鲜）。评估方法：抽样与黄金集、公开基准（FB15k、WebQ、EL/RE 等）、自动化指标与人工评估结合。质量监控与迭代：将评估嵌入流水线、告警、问题分类与修复（规则/人工/重训）、「测—改—再测」闭环。Schema 演进：新增类型与关系（非破坏）、废弃与迁移（过渡期）、版本与向后兼容、评审与文档治理。

实践： 为你的小型 KG 或抽取结果定义「最小质量清单」：选 1～2 个维度（如准确性、一致性），设计 3～5 条可执行的检查（如抽样 50 条与黄金对比、或运行 2～3 条一致性规则），做一次评估并记录结果；再针对发现的问题做一轮修复（如去重、修正错误链接），复测并对比前后指标。

五、小结

质量评估与持续演进涵盖：质量四维——准确性、完整性、一致性、时效性；评估方法与基准——抽样与黄金集、公开基准与自动化/人工结合；质量监控与迭代——嵌入流水线、告警、修复与闭环；Schema 演进——新增、废弃与迁移、版本与兼容、治理流程。下一章是本课程最后一章从工程师到知识图谱专家：路线图与进阶——岗位与能力模型、学术与工业资源、课程回顾与进阶方向。