知识图谱与大语言模型

第 34 章 · 知识图谱

大语言模型（LLM）与知识图谱（KG）正在深度结合：LLM 擅长泛化与生成，却易产生幻觉且难以溯源；KG 提供结构化、可核查的知识。用 KG 约束或增强 LLM可缓解幻觉并提升可解释性；RAG中 KG 作为检索源提供子图与三元组上下文；从文本到 KG的自动构建越来越多地借助 LLM 做抽取与链接；KG 增强的 Agent则把图当作「工具」做查询与多步推理。本章把 LLM 与 KG 的这四条主线讲清楚。

一、LLM 与 KG 的互补：幻觉缓解与可解释性

幻觉缓解：LLM 可能生成与事实不符或无法验证的内容。将KG 作为外部知识源，在生成前或生成中注入相关实体、关系或子图，可约束输出或提供「可核查的事实」——例如先根据问题从 KG 检索相关三元组，再让 LLM 基于这些三元组生成答案，从而减少无依据的编造。也可用 KG 做后验校验：对 LLM 输出中的实体与关系在 KG 中做存在性检查或一致性检查。

可解释性：当答案来自或经过 KG 时，可追溯到具体三元组或推理路径，用户与审计方可看到「依据哪些知识得出该结论」。展示形式包括：高亮支撑三元组、展示多跳路径、或提供「根据 KG 中 (A, 关系, B) 与 (B, 关系, C) 得到 …」的自然语言解释。可解释性对合规、客服与决策支持场景尤为重要。

互补关系可概括为：LLM 提供语言理解与生成能力，KG 提供可验证的结构化知识；二者结合既保留 LLM 的灵活性，又增强事实性与可追溯性。

Hallucination mitigation

KG as context or constraint; retrieve then generate; post-hoc fact check against KG.

Explainability

Trace answer to triples or paths; show supporting facts; audit and compliance.

Complement

LLM: language; KG: verifiable structure; combine for factual, traceable output.

LLM 与 KG 互补：约束与增强；幻觉缓解与可解释性

二、RAG 中的知识图谱

RAG（Retrieval-Augmented Generation）在生成前先从外部源检索相关上下文，再交给 LLM 生成答案。当检索源包含KG时，可检索到的不再只是文档片段，而是子图、实体描述、相关三元组或自然语言形式的「知识片段」。

检索方式：根据用户问题做实体链接，取对应实体及其 1～2 跳邻接子图；或根据问题嵌入与三元组/子图嵌入做向量检索；或混合（先实体定位再扩展子图，再按相关性排序）。检索到的子图或三元组可转为自然语言描述（如「A 是 B 的 …」「A 与 C 存在 … 关系」）再拼进 prompt，供 LLM 生成。

与文档 RAG 的关系：可单独使用 KG 作为 RAG 源；也可KG + 文档双路检索，再融合上下文——例如先查 KG 得实体与关系，再查文档得相关段落，一起喂给 LLM。KG RAG 适合事实型、关系型问题；文档 RAG 适合长尾描述与细节；二者结合覆盖更广。

RAG 中的 KG：Query → 检索 KG 子图/三元组 → 转 NL 上下文 → LLM 生成

三、从文本到 KG 的自动构建

LLM 可参与信息抽取的多个环节：NER（识别文本中的实体）、关系抽取（RE）（识别实体对之间的关系类型）、实体链接（EL）（将 mention 链接到 KG 实体或新实体）、以及端到端三元组抽取（输入句子，输出 (s, r, o) 列表）。方式上可以是提示（Prompt）——用少量示例或结构化指令让 LLM 直接输出 JSON/三元组；或微调——在标注数据上微调 LLM 或小模型做抽取，再与实体库/本体结合做链接与融合。

流水线：文本 → LLM（或传统模型）NER/RE/EL → 候选三元组 → 去重、对齐、写入 KG；可选人机协同——LLM 产出候选，人工校验或修正后入库，同时积累标注以迭代模型。从文本到 KG 的自动构建能持续从文档、对话中抽取知识，扩大与更新图谱。

质量与一致性：LLM 抽取结果可能存在噪声、关系不一致或与现有 schema 不符。可通过 schema 约束（在 prompt 或解码时限制关系类型）、与现有 KG 实体对齐、以及后处理规则或校验模型做过滤与修正。

Text → KG with LLM

LLM for NER, RE, EL, or end-to-end triple extraction. Prompt-based or fine-tuned; pipeline: text → extract → align → KG write; human-in-the-loop for quality; schema and consistency checks.

从文本到 KG：LLM 参与 NER/RE/EL 或端到端抽取，经对齐与校验写入 KG

四、KG 增强的 Agent

Agent通常具备规划、调用工具与多步推理能力。将KG 作为 Agent 的一种工具：当需要事实、关系或推理时，Agent 可「调用」KG 查询（如 SPARQL、Cypher 或封装好的 API），获取子图或三元组，再结合其他工具（搜索、计算器、API）与 LLM 生成下一步动作或最终答案。

典型流程：用户提问 → Agent 规划（可能需多步）→ 某步选择「查 KG」→ 执行查询得子图/三元组 → 将结果纳入上下文 → LLM 继续规划或生成回答。KG 工具可返回结构化结果或转为自然语言摘要，便于 LLM 理解。多步推理时，Agent 可能先查 KG 得到实体 A 的关系，再据此查文档或再查 KG，形成「LLM + KG + 其他工具」的协作。

溯源与可控：KG 增强的 Agent 回答可追溯到「使用了 KG 的哪些查询与结果」，便于审计与可解释；同时可通过 KG 的 schema 与权限控制，让 Agent 仅访问允许的知识范围，实现可控的知识增强。

KG 增强的 Agent：Agent 将 KG 作为工具之一，与搜索、计算器等协同

一句话： LLM 与 KG 互补：KG 约束或增强 LLM，缓解幻觉（检索后生成或后验校验），可解释性（答案追溯到三元组或路径）。RAG 中的 KG：检索子图/三元组作上下文，转 NL 后喂给 LLM；可单独 KG 或 KG+文档双路检索。从文本到 KG：LLM 做 NER/RE/EL 或端到端抽取，经对齐与校验写入 KG，可选人机协同。KG 增强的 Agent：KG 作为 Agent 工具，多步规划与调用，溯源与可控。

实践： 用任意 LLM API 做一次「KG RAG」最小实验：准备 5～10 条三元组（或一个小型 JSON 子图），用户提问时先做简单关键词或实体匹配选出相关三元组，拼成上下文再调用 LLM 生成答案，并对比「无 KG 上下文」与「有 KG 上下文」的答案事实性；或在一个 Agent 框架中为 KG 写一个简单 tool（输入实体或关系，返回相关三元组），让 Agent 在回答事实类问题时优先调用该 tool。

五、小结

知识图谱与大语言模型的结合体现在：LLM 与 KG 的互补——幻觉缓解与可解释性；RAG 中的 KG——子图/三元组检索与上下文增强；从文本到 KG 的自动构建——LLM 参与抽取与对齐；KG 增强的 Agent——KG 作为工具、多步推理与溯源。下一章讲质量评估与持续演进：准确性、完整性、一致性、时效性等维度，评估方法与基准，质量监控与 Schema 演进。