企业知识图谱实践
第 29 章 · 知识图谱
企业里的知识图谱 往往不是「一张图打天下」,而是多种形态并存:主数据图 统一客户、产品、组织等实体与关系;文档知识图 从合同、制度、手册中抽取实体与关系;领域本体 承载行业概念、规则与标准。要把 KG 从概念验证(POC) 推到生产 ,离不开团队、流程与治理 ;而证明投入值得,则需要清晰的ROI 与度量 。本章把企业 KG 的典型形态、从 POC 到生产的路径、以及 ROI 与度量讲清楚。
一、企业知识图谱的典型形态
主数据型 KG(Master Data KG) :以主数据管理(MDM) 为核心,将企业内的客户、供应商、产品、组织、地点等核心实体及其关系建模为图。实体来自各业务系统的清洗与对齐,关系包括「归属」「负责」「供应」等。主数据图支撑统一检索、主数据服务、与 BI/推荐等下游的一致引用。
文档知识型 KG(Document Knowledge KG) :从非结构化或半结构化文档 (合同、制度、手册、工单)中抽取实体、关系与事件,构建「文档—实体—关系」图。支持合同条款检索、制度合规检查、智能问答与知识沉淀。抽取依赖 NER、关系抽取与实体链接,常与领域词典或小本体结合。
领域本体型 KG(Domain Ontology KG) :以领域概念、分类与规则 为主,描述「什么是产品类型、什么是合规条款」等语义。可与主数据图、文档知识图结合:本体提供 schema 与约束,实例数据填入图中。适用于强监管行业(金融、医疗、法律)的标准与规则表达。
Master Data KG
Customer, product, org; MDM alignment; unified reference for BI and apps.
Document Knowledge KG
From contracts, policies, manuals; NER/RE/EL; search, QA, compliance.
Domain Ontology KG
Concepts, taxonomy, rules; schema and constraints; regulated domains.
Enterprise KG types: master data, document knowledge, domain ontology
Master Data KG
Customer, Product
Org, Supplier
MDM, alignment
Unified ID, BI
Document KG
Contract, policy
NER / RE / EL
Search, QA
Compliance, RAG
Domain Ontology
Concepts, taxonomy
Rules, schema
Regulated domain
Schema + constraints
Enterprise KG often combines: master data as core entities; document KG as content-derived graph; ontology as schema and rules
Three shapes can be separate graphs or one unified graph with multiple "layers" or namespaces
Left: master data. Center: document knowledge. Right: domain ontology. Often integrated.
企业 KG 三种形态:主数据图、文档知识图、领域本体;可独立或融合
二、从 POC 到生产:团队、流程与治理
团队 :企业 KG 项目通常需要领域专家 (定义概念、校验质量)、数据工程师 (ETL、对齐、存储)、算法/NLP (抽取、链接、嵌入)、平台/后端 (API、图库、运维)。可设 KG 或数据智能团队牵头,与业务方、主数据、合规协同。
流程 :从 POC 到生产的典型阶段包括——需求与场景 (明确业务目标与成功标准);建模与本体 (实体类型、关系、属性与约束);数据接入与抽取 (主数据清洗、文档抽取);融合与质量 (对齐、去重、真值发现、质量门禁);存储与发布 (图库、API、权限);应用接入与迭代 (搜索、推荐、问答上线后持续监控与迭代)。
治理 :数据治理 ——谁可以增删改哪些实体与关系、审批流程;质量治理 ——覆盖率、准确率、新鲜度指标与告警;元数据与血缘 ——来源、加工步骤、使用方;合规与安全 ——敏感字段脱敏、访问审计、合规规则检查。
POC to production: team, process, governance
Require
Model
Extract
Fuse
Store
Publish
Team
Domain · Data · Algorithm · Platform
Align with business, MDM, compliance
Governance
Quality · Ownership · Lineage · Security
Audit, compliance checks
POC: narrow scope, quick win, validate value. Production: stable pipeline, SLA, governance, iteration with apps
Process: Require → Model → Extract → Fuse → Store → Publish; then monitor and iterate with downstream apps
Top: process stages. Middle: team and governance. Bottom: POC vs production mindset
从 POC 到生产:流程阶段(需求→建模→抽取→融合→存储→发布);团队与治理
三、ROI 与度量
论证企业 KG 的ROI 需要把投入(人力、平台、数据)与业务产出 挂钩。业务指标 :若 KG 支撑搜索,可看点击率、首条满足率、搜索到转化;若支撑推荐,看 CTR、转化、多样性;若支撑问答,看答对率、端到端满意度;若支撑合规,看规则覆盖、人工复核量下降。选择与业务方共识的 1~3 个核心指标,在 POC 与上线后做对比。
数据与系统指标 :覆盖率 ——关键实体/关系覆盖比例;准确率与新鲜度 ——抽样评估、数据更新时间;可用性 ——API 与图库 SLA、故障恢复。这些指标支撑「图是否健康」的判断,是业务效果的基础。
实践中可先定「北极星指标」(如搜索首条满足率),再拆解为数据质量与系统指标;用 A/B 或前后对比量化 KG 上线带来的提升,并定期复盘以调整优先级与资源。
ROI 与度量小结
Business: search CTR, recommendation conversion, QA accuracy, compliance coverage. Data: coverage, accuracy, freshness. System: availability, latency. Tie KG rollout to before/after or A/B metrics.
ROI and metrics
Business metrics
Search: CTR, first-result satisfaction
Recommend: conversion, diversity
QA: accuracy; Compliance: coverage
North star + before/after or A/B
Data & system
Coverage, accuracy, freshness
API SLA, latency, uptime
Lineage, audit
Foundation for business impact
ROI: link KG investment to business outcome; pick 1–3 core metrics; measure at POC and post-launch; iterate with stakeholders
Business metrics = what stakeholders care about; data/system metrics = health of the KG and platform
Left: business impact. Right: data and system health. Both feed ROI narrative.
ROI 与度量:业务指标(搜索/推荐/问答/合规)与数据/系统指标(覆盖、质量、SLA)
一句话: 企业 KG 常见三种形态:主数据图 (MDM、统一实体)、文档知识图 (从文档抽取、搜索与合规)、领域本体 (概念与规则、强监管)。从 POC 到生产 需团队 (领域、数据、算法、平台)、流程 (需求→建模→抽取→融合→存储→发布→迭代)、治理 (质量、权限、血缘、合规)。ROI 与度量 :业务指标(搜索/推荐/问答/合规效果)与数据/系统指标(覆盖、准确、新鲜、可用性),用前后对比或 A/B 论证价值。
实践: 为一个小型「企业 KG」场景(如部门主数据 + 一份制度文档)做一次迷你路线图:定义 3~5 个实体类型与关系、列出 2 个目标应用(如检索、问答)、写出 1 个业务指标与 1 个数据质量指标,并勾画从当前到「可上线」的 3 个阶段。
四、小结
企业 KG 有主数据图、文档知识图、领域本体 等典型形态,可单独或融合使用。从 POC 到生产 依赖团队协作、清晰流程与数据治理;ROI 与度量 用业务指标与数据/系统指标论证价值并驱动迭代。下一章讲知识图谱与 NLP 的融合 :预训练模型与 KG 的联合、信息抽取流水线中的 KG、文本与图的多模态表示。
← 返回目录
上一章:推荐与决策支持
下一章:知识图谱与 NLP 的融合 →