本体与分类:从 Taxonomy 到 Ontology
一、分类法(Taxonomy):层次化的类别树
分类法是一种层次化的类别体系:顶层是较抽象的概念,向下逐层细分,形成一棵树(或森林)。例如「生物 → 动物 → 脊椎动物 → 哺乳动物 → 人」,或「商品 → 电子产品 → 手机」。每个类别可以有多个子类,但通常每个子类只属于一个父类(单继承);节点之间除了「is-a / 子类」关系,一般不显式定义其他关系或约束。
分类法的主要用途是导航、过滤与统计:用户按层级浏览目录、筛选「属于某类」的实体、或按类别做聚合。很多知识图谱在早期会先建一个简单的分类层次,再逐步扩展成更完整的本体。分类法的局限在于:无法表达「类与类之间的其他关系」「属性的定义域与值域」「等价、传递等公理」,因此难以支撑复杂推理与跨系统的语义对齐。
二、本体(Ontology):类、属性、关系与约束
本体在哲学与计算机中常被定义为「对某一领域内概念及其关系的形式化、显式规范」。在知识图谱与语义网中,本体通常包含:
- 类(Class):实体的类型,可组织成层次(子类继承父类);
- 属性 / 关系(Property):连接实体与实体或实体与值,可声明定义域(Domain)与值域(Range)——即「谁可以有这条关系、指向什么」;
- 公理与约束:如等价(两个类或属性等价)、逆(created 的逆是 createdBy)、传递、对称、基数(至少一个、至多一个)等,用于推理与一致性检查。
因此,本体包含并超越分类法:既有类层次,又有属性与约束。例如「创立(created)」的定义域可以是「Person 或 Organization」,值域可以是「Theory 或 Product」;「位于(locatedIn)」可声明为传递——若 A 位于 B、B 位于 C,则可推出 A 位于 C。这样,机器就能根据本体做推理与校验,而不仅是按层级做筛选。
分类法(Taxonomy)
- 层次化的类别树,父类–子类
- 主要关系:is-a / 子类
- 用途:导航、过滤、统计
- 不表达属性、关系类型、约束
本体(Ontology)
- 类 + 属性/关系 + 公理与约束
- 定义域、值域、等价、逆、传递等
- 用途:共享语义、推理、一致性
- 包含并超越分类法
三、本体的作用:共享语义、推理与约束
本体为知识图谱带来三方面核心价值。
共享语义
不同系统、不同数据源对「Person」「created」「capitalOf」等概念有统一定义,融合与对齐时减少歧义;新加入的数据可按同一本体标注,实现互操作。
推理
根据公理自动推出隐含事实:传递性、逆关系、子类继承等。例如由「A 位于 B」「B 位于 C」推出「A 位于 C」,或由「x 创立 y」推出「y 被 x 创立」。
约束与一致性
定义域/值域与基数约束可用来检测数据错误:若某三元组的主体不在定义域内、或客体不在值域内,可报错或标记;推理机也能发现逻辑矛盾。
四、领域本体与上层本体
本体可按抽象程度与适用范围分层。
上层本体(Upper Ontology / Foundation Ontology)描述跨领域的通用概念:时间、空间、事件、主体、客体、部分–整体等。例如 SUMO、DOLCE、BFO(Basic Formal Ontology)等,提供「事件」「物理对象」「抽象对象」等顶层类,以及「参与」「发生在」「位于」等通用关系。上层本体不涉及具体行业术语,主要作用是让不同领域本体在顶层「对齐」到同一套抽象,便于融合与复用。
领域本体(Domain Ontology)针对某一专业领域:医学(疾病、症状、药物、治疗)、金融(账户、交易、合规)、电商(商品、订单、用户)等。领域本体中的类与关系通常继承或引用上层本体中的通用类,再扩展领域特有的概念与约束。例如「患者」可定义为「Person 且参与 医疗事件」,「药品」可归类为「物理对象」的子类。
一句话: 分类法是层次化的类别树,主要做导航与过滤;本体在类层次基础上增加属性、定义域/值域与公理,支撑共享语义、推理与约束。上层本体描述跨领域通用概念,领域本体在之上扩展行业术语并复用通用类,便于多源对齐与融合。
五、小结
分类法是父类–子类的层次树,用于导航、过滤与统计,不表达属性与约束。本体包含类、属性(及定义域/值域)与公理,实现共享语义、推理与一致性检查;分类法可视为本体的简化形态。上层本体描述时间、空间、事件等通用概念;领域本体针对医疗、金融、电商等扩展,并复用上层概念。下一章进入RDFS 与 OWL 入门,用标准语言定义类、属性与常见公理。