从语义网到知识图谱:简史与演变
一、语义网愿景与 W3C 标准
语义网(Semantic Web)的核心思想是:把万维网上的信息用机器可理解的方式表示出来,而不仅是给人读的 HTML。具体来说,用 URI 标识事物、用 RDF 描述「谁–谓词–谁」的三元关系、用 本体(Ontology)定义概念与约束,再通过 推理得到隐含知识。这样,搜索引擎、智能代理和各类应用就能「理解」数据含义,而不仅是做字符串匹配。
W3C 自 2000 年前后起推动一系列标准,形成了经典的「语义网层次栈」(Semantic Web Layer Cake):从底层的 Unicode/URI、XML,到 RDF(资源描述框架)、RDFS 与 OWL(本体语言),再到 SPARQL(查询语言)、以及上层的逻辑、证明与信任。其中与知识图谱关系最密切的是这几层:
- 1URI / IRI — 用全局唯一标识符指代「事物」,避免重名与歧义;XML 提供通用语法。
- 2RDF — 用「主体–谓词–客体」三元组描述关系,图结构天然支持多跳与融合。
- 3RDFS / OWL — 定义类、属性、定义域与值域、等价与传递等,赋予数据共享语义与推理能力。
- 4SPARQL — 对 RDF 图进行查询与更新,类似 SQL 之于关系库,是访问知识图谱的标准查询语言。
这些标准奠定了「用图 + 语义」表示知识的基础。今天很多知识图谱(尤其是开放域、跨机构共享的)仍采用 RDF/OWL + SPARQL 技术栈;属性图(如 Neo4j)则走了另一条路线,在工业界同样广泛使用。两者都源于「把知识变成图、让机器能理解」的同一愿景。
一句话: 语义网追求让机器理解 Web 上的数据,W3C 通过 URI、RDF、RDFS/OWL、SPARQL 等标准实现了「图 + 语义」的表示与查询,为后来的知识图谱提供了概念与标准基础。
二、关联数据运动
有了 RDF 和 SPARQL,若数据仍封闭在各家系统里、格式不一、难以互链,语义网仍只是愿景。2006 年前后,Tim Berners-Lee 提出关联数据(Linked Data)四条原则:用 URI 命名事物、用 HTTP 解析 URI 获取数据、用标准格式(如 RDF)提供信息、尽可能把 URI 指向更多事物以形成链接。核心思想是:把散落的数据发布成 RDF,并用 URI 互相链接,让全球数据连成一张可遍历的网。
在这一理念推动下,出现了大量开放知识库:DBpedia 从维基百科结构化抽取实体与关系;Wikidata 以协作编辑的方式构建通用知识库;还有 WordNet、GeoNames、Schema.org 等。它们彼此通过 URI 互链,形成「关联开放数据云」(LOD Cloud)。应用可以跨源查询、沿链接发现新数据,真正实现了「数据之间的超链接」。
关联数据运动把语义网从「标准与愿景」推进到「真实可用的开放数据」:开发者可以直接查询 DBpedia/Wikidata,或把自建数据用 RDF 发布并挂到 LOD 上。这也为后来的知识图谱产品提供了丰富的数据源与参考实现。
三、知识图谱概念的兴起与工业界落地
「知识图谱」作为产品名称进入大众视野,始于 2012 年 Google 正式推出 Knowledge Graph:在搜索框输入名人、地点、作品等时,右侧展示结构化摘要、属性与关联实体。名称虽新,背后却是多年在知识表示、实体识别、知识融合与搜索排序上的积累。Google 用「图」组织实体与关系,用图谱增强搜索与问答,把学术与开源中的「语义网 / 关联数据」以更直观的产品形态呈现给用户。
随后,微软、百度、阿里等纷纷建设自己的知识图谱,用于搜索、广告、推荐、风控等。工业界更关注「效果与规模」:如何从多源数据抽取与融合、如何与搜索/推荐/问答深度结合、如何支撑十亿级实体与关系。属性图数据库(如 Neo4j)在工程界流行,与 RDF/SPARQL 并存;很多企业采用「图存储 + 自研或开源抽取与推理」的混合架构。知识图谱从「学术概念与开放数据」演变为「可规模落地的产品与基础设施」。
四、当前生态:学术与开源、商业产品
今天的知识图谱生态可以粗略分为三块:学术与标准、开源与社区、商业产品与服务。三者相互影响:学术推动表示与推理理论、开源提供数据与工具、商业产品把能力打包成可用的平台与 API。
学术与标准
- 顶会/刊:ISWC、ESWC、WWW、KDD 等
- W3C:RDF、OWL、SPARQL 标准维护
- 研究方向:表示学习、推理、多模态、与 LLM 结合
开源与社区
- 开放知识库:Wikidata、DBpedia、YAGO
- 图数据库:Apache Jena、Virtuoso 社区版等
- 工具与框架:抽取、融合、可视化
商业产品
- 图数据库:Neo4j、Amazon Neptune、Nebula 等
- 云与平台:各云厂商图谱服务、企业 KG 平台
- 搜索/推荐/风控中的图谱能力
学习与选型时,可以按需取用:做研究或做开放域应用,多关注 W3C 标准与 DBpedia/Wikidata;做企业项目,则要同时了解 RDF 栈与属性图栈、开源与商业图库的差异,以及如何与现有数据与业务系统集成。本课程后续章节会逐步展开这些技术细节。
五、小结
语义网追求让机器理解 Web 数据,W3C 通过 URI、RDF、RDFS/OWL、SPARQL 形成「图 + 语义」的标准栈。关联数据运动把数据用 RDF 发布并用 URI 互链,形成 LOD Cloud,DBpedia、Wikidata 等成为开放知识的重要来源。知识图谱作为产品名自 2012 年 Google 推出后广泛沿用,工业界在搜索、推荐、风控与企业/领域场景落地;当前生态包括学术与标准、开源与社区、商业产品,三者并存、相互促进。下一章我们会看知识图谱的应用场景与价值——搜索、问答、推荐、决策支持与行业案例,帮你从场景反推需要掌握的能力。