多模态与跨语言知识图谱

知识图谱不再只属于「文本」图像中的实体、场景可与图中节点对齐;表格的行列语义与单元格可转为实体与关系;多模态融合后支持「以图搜图」「以表补图」与统一检索。跨语言 KG则把不同语言下的实体与关系对齐到同一概念空间,形成多语言知识库;多语言查询与应用让用户用母语提问、获得多语言结果或跨语言推荐。本章把多模态融入、跨语言对齐与多语言应用讲清楚。

一、图像、表格等多模态知识的融入

图像:图像中的视觉实体(物体、场景、人物)可通过视觉模型检测与识别,再与 KG 实体做对齐(如「图中某区域—实体」「图像—实体」)。方法包括:用预训练视觉—语言模型(如 CLIP)将图像区域与实体描述匹配;或先抽取图像描述/标题再做实体链接。融入后,KG 可关联图像节点或「实体—图像」边,支撑以图搜图、图文联合检索与多模态问答。

表格:表格具有行列语义(表头即属性、行即实体或事件)。表格到 KG 的转换包括:表头与关系/属性对齐单元格与实体或字面量链接、以及行—实体行—事件的映射。可用语义类型推断、实体链接与关系抽取将表结构转为 (主体, 关系, 客体) 或纳入现有图。表格融入后支持「表—图」联合查询与补全。

多模态融合表示:将文本、图像、表格(及图结构)映射到统一表示空间,通过多模态编码器与对比学习实现跨模态检索与推理。多模态 KG 的存储可扩展为「实体—多模态属性」(如实体关联多张图片、多段描述、多表行),查询时按模态过滤或融合排序。

Image

Visual entities, scene; align to KG via V+L model or caption+EL; image–entity edges.

Table

Header→relation, cell→entity/literal; row→entity/event; table-to-graph conversion.

Fusion

Unified embedding; cross-modal retrieval; entity with multi-modal attributes.

多模态融入:图像、表格、文本汇入统一 KG;统一表示与跨模态检索

二、跨语言知识图谱与实体对齐

跨语言 KG:同一套概念与关系在不同语言下有不同表述——例如「苹果」与「Apple」指向同一实体。跨语言 KG 将多语言实体、关系与描述统一到同一知识库(如 Wikidata 的多语言 label/description),使查询与应用可覆盖多语种。

实体对齐(Entity Alignment):判定不同 KG 或不同语言下的实体是否指代同一对象。跨语言场景下,对齐常依赖:嵌入空间——将多语言实体映射到同一向量空间,相似即对齐;翻译——将一侧实体名/描述翻译后与另一侧匹配;符号特征——多语言 Wikipedia 链接、同一 ISO 码等。监督、半监督与无监督方法均有应用;对齐结果可存为「同一实体多语言 ID」或等价关系。

关系与 schema 对齐:除实体外,关系类型与本体概念也需跨语言对应(如「出生地」与「place of birth」)。可通过关系嵌入、本体映射或词典实现,与实体对齐一起支撑多语言查询与推理。

跨语言 KG 与实体对齐:多语言实体经对齐形成统一知识

Cross-lingual alignment

Entity alignment: same entity across languages/KGs via embedding, translation, or symbols. Relation/schema alignment for predicates and types. Enables one KB with multi-lingual surface forms and cross-lingual query.

三、多语言查询与应用

多语言查询理解:用户用任意语言提问,系统将问题映射到 KG 查询(实体、关系、约束)。需要多语言 NER 与实体链接(将问句中的 mention 链接到多语言 KG 实体)、多语言关系匹配、以及可选的多语言查询改写或翻译。多语言预训练模型(mBERT、XLM-R 等)与多语言 KG 嵌入可联合使用。

跨语言检索与问答:即「用语言 A 提问,从多语言 KG 或文档中检索,用语言 A 或 B 作答」。检索阶段可先将查询对齐到统一实体/关系空间,再在 KG 或多模态数据上检索;答案生成或选择时可保留多语言选项(如返回多语言摘要或用户指定语言)。

应用场景:多语言搜索引擎(同一查询返回多语言实体与摘要)、多语言推荐(跨语言相似实体与内容)、多语言客服与知识库(FAQ 与 KG 支持多语种)、以及全球化产品中的统一知识层(一处维护,多语言展示)。

多语言查询与应用:任意语言提问 → KG 检索与推理 → 多语言答案与应用

一句话: 多模态融入包括图像(视觉实体与 KG 对齐、V+L 或 caption+EL)、表格(表头→关系、单元格→实体、行→实体/事件)、以及多模态融合表示与跨模态检索。跨语言 KG依赖实体对齐(嵌入、翻译、符号)与关系/schema 对齐,形成「同一知识、多语言表述」。多语言查询与应用:多语言查询理解(NER/EL/RE)、跨语言检索与问答、多语言搜索/推荐/FAQ 与全球化知识层。

实践: 选一个多语言 KG(如 Wikidata 或 DBpedia)的子集,用两种语言的实体列表做一次简单的「对齐」实验:先通过官方 sameAs 或 sitelink 取一批已对齐实体对,再训练或调用一个嵌入模型做对齐预测,对比与黄金对齐的重合率;或在多模态数据上为若干实体关联一张图片或一段描述,实现一次「实体—多模态属性」的检索。

四、小结

多模态与跨语言知识图谱涵盖:图像与表格等多模态融入——视觉实体与表结构进图、统一表示与跨模态检索;跨语言 KG 与实体对齐——多语言实体/关系对齐、嵌入/翻译/符号方法、Wikidata/DBpedia 实践;多语言查询与应用——多语言查询理解、跨语言检索与问答、搜索/推荐/FAQ 与全球化知识层。下一章讲知识图谱与大语言模型:LLM 与 KG 的互补、RAG 中的 KG、从文本到 KG 的自动构建、KG 增强的 Agent。