本体与分类：从 Taxonomy 到 Ontology

第 8 章 · 知识图谱

光有实体和关系还不够。 「创立」到底指「人创立理论」还是「公司创立产品」？「首都」的主体必须是「城市」、客体必须是「国家」吗？要让不同系统、不同人对同一批概念达成一致，就需要对类（Class）、关系（Property）及其约束做显式定义——这就是本体（Ontology）。它比单纯的分类法（Taxonomy）更丰富：不仅有「父类–子类」的层次，还有属性的定义域与值域、关系之间的等价与传递等，从而支撑共享语义、推理与一致性检查。本章从分类法与本体的区别讲起，再谈本体的作用，以及领域本体与上层本体的分层与复用。

一、分类法（Taxonomy）：层次化的类别树

分类法是一种层次化的类别体系：顶层是较抽象的概念，向下逐层细分，形成一棵树（或森林）。例如「生物 → 动物 → 脊椎动物 → 哺乳动物 → 人」，或「商品 → 电子产品 → 手机」。每个类别可以有多个子类，但通常每个子类只属于一个父类（单继承）；节点之间除了「is-a / 子类」关系，一般不显式定义其他关系或约束。

分类法的主要用途是导航、过滤与统计：用户按层级浏览目录、筛选「属于某类」的实体、或按类别做聚合。很多知识图谱在早期会先建一个简单的分类层次，再逐步扩展成更完整的本体。分类法的局限在于：无法表达「类与类之间的其他关系」「属性的定义域与值域」「等价、传递等公理」，因此难以支撑复杂推理与跨系统的语义对齐。

分类法：父类–子类树，用于导航与过滤

二、本体（Ontology）：类、属性、关系与约束

本体在哲学与计算机中常被定义为「对某一领域内概念及其关系的形式化、显式规范」。在知识图谱与语义网中，本体通常包含：

类（Class）：实体的类型，可组织成层次（子类继承父类）；
属性 / 关系（Property）：连接实体与实体或实体与值，可声明定义域（Domain）与值域（Range）——即「谁可以有这条关系、指向什么」；
公理与约束：如等价（两个类或属性等价）、逆（created 的逆是 createdBy）、传递、对称、基数（至少一个、至多一个）等，用于推理与一致性检查。

因此，本体包含并超越分类法：既有类层次，又有属性与约束。例如「创立（created）」的定义域可以是「Person 或 Organization」，值域可以是「Theory 或 Product」；「位于（locatedIn）」可声明为传递——若 A 位于 B、B 位于 C，则可推出 A 位于 C。这样，机器就能根据本体做推理与校验，而不仅是按层级做筛选。

分类法（Taxonomy）

层次化的类别树，父类–子类
主要关系：is-a / 子类
用途：导航、过滤、统计
不表达属性、关系类型、约束

本体（Ontology）

类 + 属性/关系 + 公理与约束
定义域、值域、等价、逆、传递等
用途：共享语义、推理、一致性
包含并超越分类法

分类法 vs 本体：后者增加属性、约束与推理能力

本体：类、属性（定义域/值域）与公理（传递、逆、定义域约束）

三、本体的作用：共享语义、推理与约束

本体为知识图谱带来三方面核心价值。

共享语义

不同系统、不同数据源对「Person」「created」「capitalOf」等概念有统一定义，融合与对齐时减少歧义；新加入的数据可按同一本体标注，实现互操作。

推理

根据公理自动推出隐含事实：传递性、逆关系、子类继承等。例如由「A 位于 B」「B 位于 C」推出「A 位于 C」，或由「x 创立 y」推出「y 被 x 创立」。

约束与一致性

定义域/值域与基数约束可用来检测数据错误：若某三元组的主体不在定义域内、或客体不在值域内，可报错或标记；推理机也能发现逻辑矛盾。

共享语义：多系统通过本体对概念与关系达成一致

四、领域本体与上层本体

本体可按抽象程度与适用范围分层。

上层本体（Upper Ontology / Foundation Ontology）描述跨领域的通用概念：时间、空间、事件、主体、客体、部分–整体等。例如 SUMO、DOLCE、BFO（Basic Formal Ontology）等，提供「事件」「物理对象」「抽象对象」等顶层类，以及「参与」「发生在」「位于」等通用关系。上层本体不涉及具体行业术语，主要作用是让不同领域本体在顶层「对齐」到同一套抽象，便于融合与复用。

领域本体（Domain Ontology）针对某一专业领域：医学（疾病、症状、药物、治疗）、金融（账户、交易、合规）、电商（商品、订单、用户）等。领域本体中的类与关系通常继承或引用上层本体中的通用类，再扩展领域特有的概念与约束。例如「患者」可定义为「Person 且参与医疗事件」，「药品」可归类为「物理对象」的子类。

上层本体提供通用概念，领域本体在其下扩展行业术语

一句话： 分类法是层次化的类别树，主要做导航与过滤；本体在类层次基础上增加属性、定义域/值域与公理，支撑共享语义、推理与约束。上层本体描述跨领域通用概念，领域本体在之上扩展行业术语并复用通用类，便于多源对齐与融合。

延伸： 下一章会具体讲 RDFS 与 OWL——用 W3C 标准语言如何写出「子类」「定义域/值域」「等价、逆、传递」等，把本节的抽象概念落到可用的语法与工具上。

五、小结

分类法是父类–子类的层次树，用于导航、过滤与统计，不表达属性与约束。本体包含类、属性（及定义域/值域）与公理，实现共享语义、推理与一致性检查；分类法可视为本体的简化形态。上层本体描述时间、空间、事件等通用概念；领域本体针对医疗、金融、电商等扩展，并复用上层概念。下一章进入RDFS 与 OWL 入门，用标准语言定义类、属性与常见公理。