知识图谱与大语言模型
一、LLM 与 KG 的互补:幻觉缓解与可解释性
幻觉缓解:LLM 可能生成与事实不符或无法验证的内容。将KG 作为外部知识源,在生成前或生成中注入相关实体、关系或子图,可约束输出或提供「可核查的事实」——例如先根据问题从 KG 检索相关三元组,再让 LLM 基于这些三元组生成答案,从而减少无依据的编造。也可用 KG 做后验校验:对 LLM 输出中的实体与关系在 KG 中做存在性检查或一致性检查。
可解释性:当答案来自或经过 KG 时,可追溯到具体三元组或推理路径,用户与审计方可看到「依据哪些知识得出该结论」。展示形式包括:高亮支撑三元组、展示多跳路径、或提供「根据 KG 中 (A, 关系, B) 与 (B, 关系, C) 得到 …」的自然语言解释。可解释性对合规、客服与决策支持场景尤为重要。
互补关系可概括为:LLM 提供语言理解与生成能力,KG 提供可验证的结构化知识;二者结合既保留 LLM 的灵活性,又增强事实性与可追溯性。
Hallucination mitigation
KG as context or constraint; retrieve then generate; post-hoc fact check against KG.
Explainability
Trace answer to triples or paths; show supporting facts; audit and compliance.
Complement
LLM: language; KG: verifiable structure; combine for factual, traceable output.
二、RAG 中的知识图谱
RAG(Retrieval-Augmented Generation)在生成前先从外部源检索相关上下文,再交给 LLM 生成答案。当检索源包含KG时,可检索到的不再只是文档片段,而是子图、实体描述、相关三元组或自然语言形式的「知识片段」。
检索方式:根据用户问题做实体链接,取对应实体及其 1~2 跳邻接子图;或根据问题嵌入与三元组/子图嵌入做向量检索;或混合(先实体定位再扩展子图,再按相关性排序)。检索到的子图或三元组可转为自然语言描述(如「A 是 B 的 …」「A 与 C 存在 … 关系」)再拼进 prompt,供 LLM 生成。
与文档 RAG 的关系:可单独使用 KG 作为 RAG 源;也可KG + 文档双路检索,再融合上下文——例如先查 KG 得实体与关系,再查文档得相关段落,一起喂给 LLM。KG RAG 适合事实型、关系型问题;文档 RAG 适合长尾描述与细节;二者结合覆盖更广。
三、从文本到 KG 的自动构建
LLM 可参与信息抽取的多个环节:NER(识别文本中的实体)、关系抽取(RE)(识别实体对之间的关系类型)、实体链接(EL)(将 mention 链接到 KG 实体或新实体)、以及端到端三元组抽取(输入句子,输出 (s, r, o) 列表)。方式上可以是提示(Prompt)——用少量示例或结构化指令让 LLM 直接输出 JSON/三元组;或微调——在标注数据上微调 LLM 或小模型做抽取,再与实体库/本体结合做链接与融合。
流水线:文本 → LLM(或传统模型)NER/RE/EL → 候选三元组 → 去重、对齐、写入 KG;可选人机协同——LLM 产出候选,人工校验或修正后入库,同时积累标注以迭代模型。从文本到 KG 的自动构建能持续从文档、对话中抽取知识,扩大与更新图谱。
质量与一致性:LLM 抽取结果可能存在噪声、关系不一致或与现有 schema 不符。可通过 schema 约束(在 prompt 或解码时限制关系类型)、与现有 KG 实体对齐、以及后处理规则或校验模型做过滤与修正。
Text → KG with LLM
LLM for NER, RE, EL, or end-to-end triple extraction. Prompt-based or fine-tuned; pipeline: text → extract → align → KG write; human-in-the-loop for quality; schema and consistency checks.
四、KG 增强的 Agent
Agent通常具备规划、调用工具与多步推理能力。将KG 作为 Agent 的一种工具:当需要事实、关系或推理时,Agent 可「调用」KG 查询(如 SPARQL、Cypher 或封装好的 API),获取子图或三元组,再结合其他工具(搜索、计算器、API)与 LLM 生成下一步动作或最终答案。
典型流程:用户提问 → Agent 规划(可能需多步)→ 某步选择「查 KG」→ 执行查询得子图/三元组 → 将结果纳入上下文 → LLM 继续规划或生成回答。KG 工具可返回结构化结果或转为自然语言摘要,便于 LLM 理解。多步推理时,Agent 可能先查 KG 得到实体 A 的关系,再据此查文档或再查 KG,形成「LLM + KG + 其他工具」的协作。
溯源与可控:KG 增强的 Agent 回答可追溯到「使用了 KG 的哪些查询与结果」,便于审计与可解释;同时可通过 KG 的 schema 与权限控制,让 Agent 仅访问允许的知识范围,实现可控的知识增强。
一句话: LLM 与 KG 互补:KG 约束或增强 LLM,缓解幻觉(检索后生成或后验校验),可解释性(答案追溯到三元组或路径)。RAG 中的 KG:检索子图/三元组作上下文,转 NL 后喂给 LLM;可单独 KG 或 KG+文档双路检索。从文本到 KG:LLM 做 NER/RE/EL 或端到端抽取,经对齐与校验写入 KG,可选人机协同。KG 增强的 Agent:KG 作为 Agent 工具,多步规划与调用,溯源与可控。
五、小结
知识图谱与大语言模型的结合体现在:LLM 与 KG 的互补——幻觉缓解与可解释性;RAG 中的 KG——子图/三元组检索与上下文增强;从文本到 KG 的自动构建——LLM 参与抽取与对齐;KG 增强的 Agent——KG 作为工具、多步推理与溯源。下一章讲质量评估与持续演进:准确性、完整性、一致性、时效性等维度,评估方法与基准,质量监控与 Schema 演进。