多模态与跨语言知识图谱

第 33 章 · 知识图谱

知识图谱不再只属于「文本」：图像中的实体、场景可与图中节点对齐；表格的行列语义与单元格可转为实体与关系；多模态融合后支持「以图搜图」「以表补图」与统一检索。跨语言 KG则把不同语言下的实体与关系对齐到同一概念空间，形成多语言知识库；多语言查询与应用让用户用母语提问、获得多语言结果或跨语言推荐。本章把多模态融入、跨语言对齐与多语言应用讲清楚。

一、图像、表格等多模态知识的融入

图像：图像中的视觉实体（物体、场景、人物）可通过视觉模型检测与识别，再与 KG 实体做对齐（如「图中某区域—实体」「图像—实体」）。方法包括：用预训练视觉—语言模型（如 CLIP）将图像区域与实体描述匹配；或先抽取图像描述/标题再做实体链接。融入后，KG 可关联图像节点或「实体—图像」边，支撑以图搜图、图文联合检索与多模态问答。

表格：表格具有行列语义（表头即属性、行即实体或事件）。表格到 KG 的转换包括：表头与关系/属性对齐、单元格与实体或字面量链接、以及行—实体或行—事件的映射。可用语义类型推断、实体链接与关系抽取将表结构转为 (主体, 关系, 客体) 或纳入现有图。表格融入后支持「表—图」联合查询与补全。

多模态融合表示：将文本、图像、表格（及图结构）映射到统一表示空间，通过多模态编码器与对比学习实现跨模态检索与推理。多模态 KG 的存储可扩展为「实体—多模态属性」（如实体关联多张图片、多段描述、多表行），查询时按模态过滤或融合排序。

Image

Visual entities, scene; align to KG via V+L model or caption+EL; image–entity edges.

Table

Header→relation, cell→entity/literal; row→entity/event; table-to-graph conversion.

Fusion

Unified embedding; cross-modal retrieval; entity with multi-modal attributes.

多模态融入：图像、表格、文本汇入统一 KG；统一表示与跨模态检索

二、跨语言知识图谱与实体对齐

跨语言 KG：同一套概念与关系在不同语言下有不同表述——例如「苹果」与「Apple」指向同一实体。跨语言 KG 将多语言实体、关系与描述统一到同一知识库（如 Wikidata 的多语言 label/description），使查询与应用可覆盖多语种。

实体对齐（Entity Alignment）：判定不同 KG 或不同语言下的实体是否指代同一对象。跨语言场景下，对齐常依赖：嵌入空间——将多语言实体映射到同一向量空间，相似即对齐；翻译——将一侧实体名/描述翻译后与另一侧匹配；符号特征——多语言 Wikipedia 链接、同一 ISO 码等。监督、半监督与无监督方法均有应用；对齐结果可存为「同一实体多语言 ID」或等价关系。

关系与 schema 对齐：除实体外，关系类型与本体概念也需跨语言对应（如「出生地」与「place of birth」）。可通过关系嵌入、本体映射或词典实现，与实体对齐一起支撑多语言查询与推理。

跨语言 KG 与实体对齐：多语言实体经对齐形成统一知识

Cross-lingual alignment

Entity alignment: same entity across languages/KGs via embedding, translation, or symbols. Relation/schema alignment for predicates and types. Enables one KB with multi-lingual surface forms and cross-lingual query.

三、多语言查询与应用

多语言查询理解：用户用任意语言提问，系统将问题映射到 KG 查询（实体、关系、约束）。需要多语言 NER 与实体链接（将问句中的 mention 链接到多语言 KG 实体）、多语言关系匹配、以及可选的多语言查询改写或翻译。多语言预训练模型（mBERT、XLM-R 等）与多语言 KG 嵌入可联合使用。

跨语言检索与问答：即「用语言 A 提问，从多语言 KG 或文档中检索，用语言 A 或 B 作答」。检索阶段可先将查询对齐到统一实体/关系空间，再在 KG 或多模态数据上检索；答案生成或选择时可保留多语言选项（如返回多语言摘要或用户指定语言）。

应用场景：多语言搜索引擎（同一查询返回多语言实体与摘要）、多语言推荐（跨语言相似实体与内容）、多语言客服与知识库（FAQ 与 KG 支持多语种）、以及全球化产品中的统一知识层（一处维护，多语言展示）。

多语言查询与应用：任意语言提问 → KG 检索与推理 → 多语言答案与应用

一句话： 多模态融入包括图像（视觉实体与 KG 对齐、V+L 或 caption+EL）、表格（表头→关系、单元格→实体、行→实体/事件）、以及多模态融合表示与跨模态检索。跨语言 KG依赖实体对齐（嵌入、翻译、符号）与关系/schema 对齐，形成「同一知识、多语言表述」。多语言查询与应用：多语言查询理解（NER/EL/RE）、跨语言检索与问答、多语言搜索/推荐/FAQ 与全球化知识层。

实践： 选一个多语言 KG（如 Wikidata 或 DBpedia）的子集，用两种语言的实体列表做一次简单的「对齐」实验：先通过官方 sameAs 或 sitelink 取一批已对齐实体对，再训练或调用一个嵌入模型做对齐预测，对比与黄金对齐的重合率；或在多模态数据上为若干实体关联一张图片或一段描述，实现一次「实体—多模态属性」的检索。

四、小结

多模态与跨语言知识图谱涵盖：图像与表格等多模态融入——视觉实体与表结构进图、统一表示与跨模态检索；跨语言 KG 与实体对齐——多语言实体/关系对齐、嵌入/翻译/符号方法、Wikidata/DBpedia 实践；多语言查询与应用——多语言查询理解、跨语言检索与问答、搜索/推荐/FAQ 与全球化知识层。下一章讲知识图谱与大语言模型：LLM 与 KG 的互补、RAG 中的 KG、从文本到 KG 的自动构建、KG 增强的 Agent。