本体与分类:从 Taxonomy 到 Ontology

光有实体和关系还不够。 「创立」到底指「人创立理论」还是「公司创立产品」?「首都」的主体必须是「城市」、客体必须是「国家」吗?要让不同系统、不同人对同一批概念达成一致,就需要对类(Class)关系(Property)及其约束做显式定义——这就是本体(Ontology)。它比单纯的分类法(Taxonomy)更丰富:不仅有「父类–子类」的层次,还有属性的定义域与值域、关系之间的等价与传递等,从而支撑共享语义、推理与一致性检查。本章从分类法与本体的区别讲起,再谈本体的作用,以及领域本体与上层本体的分层与复用。

一、分类法(Taxonomy):层次化的类别树

分类法是一种层次化的类别体系:顶层是较抽象的概念,向下逐层细分,形成一棵树(或森林)。例如「生物 → 动物 → 脊椎动物 → 哺乳动物 → 人」,或「商品 → 电子产品 → 手机」。每个类别可以有多个子类,但通常每个子类只属于一个父类(单继承);节点之间除了「is-a / 子类」关系,一般不显式定义其他关系或约束。

分类法的主要用途是导航、过滤与统计:用户按层级浏览目录、筛选「属于某类」的实体、或按类别做聚合。很多知识图谱在早期会先建一个简单的分类层次,再逐步扩展成更完整的本体。分类法的局限在于:无法表达「类与类之间的其他关系」「属性的定义域与值域」「等价、传递等公理」,因此难以支撑复杂推理与跨系统的语义对齐。

分类法:父类–子类树,用于导航与过滤

二、本体(Ontology):类、属性、关系与约束

本体在哲学与计算机中常被定义为「对某一领域内概念及其关系的形式化、显式规范」。在知识图谱与语义网中,本体通常包含:

因此,本体包含并超越分类法:既有类层次,又有属性与约束。例如「创立(created)」的定义域可以是「Person 或 Organization」,值域可以是「Theory 或 Product」;「位于(locatedIn)」可声明为传递——若 A 位于 B、B 位于 C,则可推出 A 位于 C。这样,机器就能根据本体做推理校验,而不仅是按层级做筛选。

分类法(Taxonomy)

  • 层次化的类别树,父类–子类
  • 主要关系:is-a / 子类
  • 用途:导航、过滤、统计
  • 不表达属性、关系类型、约束

本体(Ontology)

  • 类 + 属性/关系 + 公理与约束
  • 定义域、值域、等价、逆、传递等
  • 用途:共享语义、推理、一致性
  • 包含并超越分类法
分类法 vs 本体:后者增加属性、约束与推理能力
本体:类、属性(定义域/值域)与公理(传递、逆、定义域约束)

三、本体的作用:共享语义、推理与约束

本体为知识图谱带来三方面核心价值。

共享语义

不同系统、不同数据源对「Person」「created」「capitalOf」等概念有统一定义,融合与对齐时减少歧义;新加入的数据可按同一本体标注,实现互操作。

推理

根据公理自动推出隐含事实:传递性、逆关系、子类继承等。例如由「A 位于 B」「B 位于 C」推出「A 位于 C」,或由「x 创立 y」推出「y 被 x 创立」。

约束与一致性

定义域/值域与基数约束可用来检测数据错误:若某三元组的主体不在定义域内、或客体不在值域内,可报错或标记;推理机也能发现逻辑矛盾。

共享语义:多系统通过本体对概念与关系达成一致

四、领域本体与上层本体

本体可按抽象程度与适用范围分层。

上层本体(Upper Ontology / Foundation Ontology)描述跨领域的通用概念:时间、空间、事件、主体、客体、部分–整体等。例如 SUMO、DOLCE、BFO(Basic Formal Ontology)等,提供「事件」「物理对象」「抽象对象」等顶层类,以及「参与」「发生在」「位于」等通用关系。上层本体不涉及具体行业术语,主要作用是让不同领域本体在顶层「对齐」到同一套抽象,便于融合与复用。

领域本体(Domain Ontology)针对某一专业领域:医学(疾病、症状、药物、治疗)、金融(账户、交易、合规)、电商(商品、订单、用户)等。领域本体中的类与关系通常继承或引用上层本体中的通用类,再扩展领域特有的概念与约束。例如「患者」可定义为「Person 且参与 医疗事件」,「药品」可归类为「物理对象」的子类。

上层本体提供通用概念,领域本体在其下扩展行业术语

一句话: 分类法是层次化的类别树,主要做导航与过滤;本体在类层次基础上增加属性、定义域/值域与公理,支撑共享语义、推理与约束上层本体描述跨领域通用概念,领域本体在之上扩展行业术语并复用通用类,便于多源对齐与融合。

延伸: 下一章会具体讲 RDFS 与 OWL——用 W3C 标准语言如何写出「子类」「定义域/值域」「等价、逆、传递」等,把本节的抽象概念落到可用的语法与工具上。

五、小结

分类法是父类–子类的层次树,用于导航、过滤与统计,不表达属性与约束。本体包含类、属性(及定义域/值域)与公理,实现共享语义、推理与一致性检查;分类法可视为本体的简化形态。上层本体描述时间、空间、事件等通用概念;领域本体针对医疗、金融、电商等扩展,并复用上层概念。下一章进入RDFS 与 OWL 入门,用标准语言定义类、属性与常见公理。