开放知识库:Wikidata、DBpedia 等
一、Wikidata 的结构与查询
Wikidata 是维基媒体基金会维护的协作式、多语言知识库,实体用 Q 编号(如 Q937 表示爱因斯坦)、属性用 P 编号(如 P569 出生日期)。每个实体有多个语句(Statement):每条语句由「属性 + 值」组成,可带限定符(Qualifier)(如时间范围、来源)和引用(Reference)。值可以是实体、数量、时间、坐标、字符串等;支持多值(同一属性多个取值)与排名(preferred / normal / deprecated)。
查询方式:Wikidata Query Service(WDQS) 提供基于 SPARQL 的端点,数据通过 Wikibase 模型映射为 RDF(如 wd:Q937 wdt:P569 "1879-03-14");也可用官方 API(api.wikidata.org) 按实体 ID 或搜索获取 JSON。多语言标签与描述便于做实体链接与展示。
二、DBpedia 抽取与本体
DBpedia 是从各语言 Wikipedia 中自动抽取而成的知识库:利用 Infobox、分类、链接、摘要等结构化或半结构化信息,通过抽取模板与规则生成 RDF 三元组。实体 URI 通常按语言与页面命名(如 dbpedia.org/resource/Albert_Einstein),便于与维基页面一一对应。
DBpedia 本体定义类(如 Person, Place, Organisation)与属性(如 birthDate, birthPlace);与 Wikipedia 信息框字段和类别对应,并逐步与 Wikidata 等对齐。提供SPARQL 端点、数据集下载(按语言或本体划分)、以及 Linked Data 访问。DBpedia 适合做实体链接的 target、与维基文本结合做问答,或作为开放图谱的骨干与自建 KG 做实体对齐。
三、YAGO、Freebase 等
YAGO 结合 Wikipedia、Wikidata 与 WordNet:实体与类别层次来自维基与 WordNet,事实来自维基抽取与 Wikidata,强调类型一致性与高质量,常用于学术评测与实体类型推断。
Freebase 曾是由 Metaweb 创建、后被 Google 收购的开放知识库,后与 Google Knowledge Graph 整合;Freebase 数据已停更,但历史 dumps 仍可做研究或迁移参考;许多实体可与 Wikidata 通过 sameAs 或社区映射关联。
其他开放 KG 包括:Wikidata(协作、多语言、持续更新);DBpedia(维基抽取、多语言、SPARQL);YAGO(类型严谨、融合维基与 WordNet);ConceptNet(常识关系、多语言);BabelNet(多语言词网与百科融合)。选型时需考虑领域覆盖、语言、许可、更新频率与接口形式。
Wikidata
Collaborative, multi-language; Q/P IDs; statements with qualifiers; WDQS SPARQL, API.
DBpedia
Wikipedia extraction; Infobox → RDF; ontology; SPARQL; per-language datasets.
YAGO
Wikipedia + Wikidata + WordNet; type hierarchy; quality-focused.
Freebase
Legacy; integrated into Google KG; dumps for reference; align via Wikidata.
四、如何复用开放 KG 与自建 KG 的融合
复用方式可归纳为:直接查询——用 SPARQL 或 API 做问答、补全、推荐;实体链接目标——将文本中的指称链到 Wikidata/DBpedia 等实体 ID;种子与迁移——用开放 KG 的实体与关系做冷启动、或作为抽取/对齐的种子;与自建 KG 融合——通过实体对齐(如 sameAs、等价类)与 schema 映射,把开放 KG 作为外部层或与业务图做联合存储与推理。
融合注意点:实体对齐——用名称、别名、属性或嵌入做跨图实体匹配,建立等价链接;Schema 映射——将开放 KG 的类/属性映射到自建本体,或统一用公共本体;增量与同步——开放 KG 持续更新,可定期拉取 dumps 或通过 API 增量同步;许可与合规——Wikidata 等多为 CC0,DBpedia 等有 ODbL 等条款,商业使用前需确认许可与归属。
融合策略小结
实体对齐(sameAs / 等价类);Schema 映射(类、属性统一);增量同步与版本;许可合规(CC0、ODbL 等)。开放 KG 作补充层或联合查询。
一句话: Wikidata 用 Q/P、Statement、多语言与 WDQS/API 提供协作式开放知识库;DBpedia 从 Wikipedia 抽取 RDF 与本体,提供 SPARQL 与多语言数据集。YAGO 融合维基与 WordNet 强调类型质量;Freebase 为历史资源可作参考。复用方式:直接查询、实体链接目标、种子数据、与自建 KG 融合;融合时做实体对齐、Schema 映射、增量同步并注意许可与溯源。
五、小结
开放知识库如 Wikidata、DBpedia、YAGO 提供多语言、大规模、可查询的 KG。Wikidata 以 Item/Statement/Value 与 WDQS/API 为主;DBpedia 从 Wikipedia 抽取 RDF 与本体。复用可采取直接查询、实体链接、种子数据或与自建 KG 融合;融合时需实体对齐、Schema 映射、增量与许可。下一章讲图数据库与三元组存储:Triple Store 与图数据库的定位,以及 Virtuoso、Blazegraph、Neo4j 等存储模型与索引。