开放知识库:Wikidata、DBpedia 等

不想从零建图时,可以直接站在巨人肩上:WikidataDBpediaYAGO开放知识库提供多语言、大规模、持续更新的实体与关系,既可单独查询做问答与推荐,也可与自建业务图谱融合,补全实体、对齐 schema、做联合推理。本章介绍 Wikidata 的结构与查询、DBpedia 的抽取与本体、YAGO 与 Freebase 等简要对比,以及如何复用开放 KG 并与自建 KG 融合

一、Wikidata 的结构与查询

Wikidata 是维基媒体基金会维护的协作式、多语言知识库,实体用 Q 编号(如 Q937 表示爱因斯坦)、属性用 P 编号(如 P569 出生日期)。每个实体有多个语句(Statement):每条语句由「属性 + 值」组成,可带限定符(Qualifier)(如时间范围、来源)和引用(Reference)。值可以是实体、数量、时间、坐标、字符串等;支持多值(同一属性多个取值)与排名(preferred / normal / deprecated)。

查询方式:Wikidata Query Service(WDQS) 提供基于 SPARQL 的端点,数据通过 Wikibase 模型映射为 RDF(如 wd:Q937 wdt:P569 "1879-03-14");也可用官方 API(api.wikidata.org) 按实体 ID 或搜索获取 JSON。多语言标签与描述便于做实体链接与展示。

Wikidata 结构:实体(Item)→ 语句(属性 + 限定符/引用)→ 值;支持 SPARQL 与 API 查询

二、DBpedia 抽取与本体

DBpedia 是从各语言 Wikipedia自动抽取而成的知识库:利用 Infobox、分类、链接、摘要等结构化或半结构化信息,通过抽取模板与规则生成 RDF 三元组。实体 URI 通常按语言与页面命名(如 dbpedia.org/resource/Albert_Einstein),便于与维基页面一一对应。

DBpedia 本体定义类(如 Person, Place, Organisation)与属性(如 birthDate, birthPlace);与 Wikipedia 信息框字段和类别对应,并逐步与 Wikidata 等对齐。提供SPARQL 端点、数据集下载(按语言或本体划分)、以及 Linked Data 访问。DBpedia 适合做实体链接的 target、与维基文本结合做问答,或作为开放图谱的骨干与自建 KG 做实体对齐。

DBpedia:从 Wikipedia Infobox/分类/链接等抽取,经模板与规则生成 RDF 与本体

三、YAGO、Freebase 等

YAGO 结合 Wikipedia、Wikidata 与 WordNet:实体与类别层次来自维基与 WordNet,事实来自维基抽取与 Wikidata,强调类型一致性与高质量,常用于学术评测与实体类型推断。

Freebase 曾是由 Metaweb 创建、后被 Google 收购的开放知识库,后与 Google Knowledge Graph 整合;Freebase 数据已停更,但历史 dumps 仍可做研究或迁移参考;许多实体可与 Wikidata 通过 sameAs 或社区映射关联。

其他开放 KG 包括:Wikidata(协作、多语言、持续更新);DBpedia(维基抽取、多语言、SPARQL);YAGO(类型严谨、融合维基与 WordNet);ConceptNet(常识关系、多语言);BabelNet(多语言词网与百科融合)。选型时需考虑领域覆盖、语言、许可、更新频率与接口形式。

Wikidata

Collaborative, multi-language; Q/P IDs; statements with qualifiers; WDQS SPARQL, API.

DBpedia

Wikipedia extraction; Infobox → RDF; ontology; SPARQL; per-language datasets.

YAGO

Wikipedia + Wikidata + WordNet; type hierarchy; quality-focused.

Freebase

Legacy; integrated into Google KG; dumps for reference; align via Wikidata.

开放 KG 概览:Wikidata、DBpedia、YAGO、Freebase 等可互相对齐;复用方式包括查询、实体链接、与自建 KG 融合

四、如何复用开放 KG 与自建 KG 的融合

复用方式可归纳为:直接查询——用 SPARQL 或 API 做问答、补全、推荐;实体链接目标——将文本中的指称链到 Wikidata/DBpedia 等实体 ID;种子与迁移——用开放 KG 的实体与关系做冷启动、或作为抽取/对齐的种子;与自建 KG 融合——通过实体对齐(如 sameAs、等价类)与 schema 映射,把开放 KG 作为外部层或与业务图做联合存储与推理。

融合注意点实体对齐——用名称、别名、属性或嵌入做跨图实体匹配,建立等价链接;Schema 映射——将开放 KG 的类/属性映射到自建本体,或统一用公共本体;增量与同步——开放 KG 持续更新,可定期拉取 dumps 或通过 API 增量同步;许可与合规——Wikidata 等多为 CC0,DBpedia 等有 ODbL 等条款,商业使用前需确认许可与归属。

融合策略小结

实体对齐(sameAs / 等价类);Schema 映射(类、属性统一);增量同步与版本;许可合规(CC0、ODbL 等)。开放 KG 作补充层或联合查询。

开放 KG 与自建 KG 融合:实体对齐建立等价关系,统一视图支持联合查询与推理

一句话: Wikidata 用 Q/P、Statement、多语言与 WDQS/API 提供协作式开放知识库;DBpedia 从 Wikipedia 抽取 RDF 与本体,提供 SPARQL 与多语言数据集。YAGO 融合维基与 WordNet 强调类型质量;Freebase 为历史资源可作参考。复用方式:直接查询、实体链接目标、种子数据、与自建 KG 融合;融合时做实体对齐、Schema 映射、增量同步并注意许可与溯源。

实践: 在 Wikidata Query Service 跑一条 SPARQL:查询「出生在德国的物理学家」前 10 条(用 wdt:P31 实例、wdt:P106 职业、wdt:P27 国籍等);再在 DBpedia 端点查同一批实体的 dbpedia-owl:abstract,体会两库的 schema 与 URI 差异。

五、小结

开放知识库如 Wikidata、DBpedia、YAGO 提供多语言、大规模、可查询的 KG。Wikidata 以 Item/Statement/Value 与 WDQS/API 为主;DBpedia 从 Wikipedia 抽取 RDF 与本体。复用可采取直接查询、实体链接、种子数据或与自建 KG 融合;融合时需实体对齐、Schema 映射、增量与许可。下一章讲图数据库与三元组存储:Triple Store 与图数据库的定位,以及 Virtuoso、Blazegraph、Neo4j 等存储模型与索引。