SPARQL 进阶与联邦查询

第 20 章 · 知识图谱

掌握 SELECT/WHERE/FILTER/OPTIONAL 之后，SPARQL 1.1 带来了更强大的能力：聚合（GROUP BY、COUNT/SUM 等）、子查询、属性路径（一条边、反向、重复多次）、以及联邦查询（SERVICE）——在一条查询里同时访问多个 SPARQL 端点。更新（INSERT/DELETE）则允许对图进行写操作。本章讲清这些进阶特性，并提醒查询优化与常见陷阱。

一、聚合与子查询

聚合（Aggregation）在 SPARQL 1.1 中通过 GROUP BY、HAVING 与聚合函数实现。GROUP BY ?x 将解按 ?x 分组，在每组内可计算 COUNT(?y)、SUM(?n)、AVG(?n)、MIN(?n)、MAX(?n) 等；HAVING 对分组后的结果再过滤。SELECT 中出现的变量要么在 GROUP BY 中，要么被包在聚合函数里。

子查询：在 WHERE 中嵌套 { SELECT ... WHERE { ... } }，内层 SELECT 产生一组绑定，外层可对这些结果再做连接或过滤。常用于「先聚合再过滤」或「取 Top-K 再与外层连接」。

SELECT ?type (COUNT(?person) AS ?cnt)
WHERE { ?person ex:type ?type . }
GROUP BY ?type
HAVING (COUNT(?person) > 10)

聚合流程：解集 → GROUP BY 分组 → 聚合函数 → HAVING 过滤

二、属性路径

属性路径（Property Path）用简洁语法描述「沿边行走」的规则，无需写出中间变量。语法包括：顺序 ex:p / ex:q（先 p 再 q）；反向 ^ex:p（沿 p 的反方向）；零或一 ex:p?；一或多 ex:p+；零或多 ex:p*；并 ex:p | ex:q（p 或 q）。例如 ?x ex:parent+ ?y 表示 ?x 经一条或多条 parent 边到达 ?y（传递闭包）。

常用路径： ex:p 单边；^ex:p 反向；ex:p+ 1+ 步；ex:p* 0+ 步；ex:p / ex:q 顺序；ex:p | ex:q 并。

SELECT ?ancestor ?descendant
WHERE { ?ancestor ex:parent+ ?descendant . }

属性路径：顺序 p/q、反向 ^p、以及 p+ 多步；路径只绑定起点与终点

三、联邦查询（SERVICE）

联邦查询允许在一条 SPARQL 查询中访问远程 SPARQL 端点。语法为 SERVICE <endpoint-url> { pattern }：花括号内的图模式在指定端点执行，变量可与外层模式连接，从而把本地图与远程图「拼」在一起。若端点不可用，实现可返回部分结果或报错；部分引擎支持 SERVICE SILENT 在失败时忽略该块。

注意：远程调用有延迟与超时；变量传递可能导致「把大量绑定发给远程」造成性能问题，通常先限制本地结果再 SERVICE。联邦适合「本地实体 + 远程补全属性」或「多源联合查询」。

联邦查询：本地图模式与 SERVICE 远程端点；变量 ?x 连接本地与远程

SELECT ?name ?type
WHERE {
  ?x ex:name ?name .
  SERVICE <https://query.wikidata.org/sparql> {
    ?x wdt:P31 ?type .
  }
}

四、更新（INSERT / DELETE）

SPARQL 1.1 更新用于修改存储中的图。INSERT DATA { ... } 插入给定三元组；DELETE DATA { ... } 删除给定三元组；INSERT { ... } WHERE { ... } 与 DELETE { ... } WHERE { ... } 根据 WHERE 的匹配结果插入或删除模板生成的三元组；LOAD 从 URL 加载图；CLEAR 清空图。更新通常通过 SPARQL Update 协议提交，具体支持因实现而异。

更新要点

INSERT DATA / DELETE DATA：静态三元组；INSERT WHERE / DELETE WHERE：基于模式匹配的写。LOAD/CLEAR 管理图。协议与权限由端点配置。

五、查询优化与常见陷阱

优化思路：选择性——先做能大幅减少解数量的模式（如固定主语或谓词）；连接顺序——BGP 中先做小结果集再连接大表；FILTER 尽早——能推送到索引或提前过滤的 FILTER 可减少中间结果；OPTIONAL 代价——OPTIONAL 可能导致结果膨胀，必要时用子查询先缩小范围；SERVICE——限制传给远程的变量绑定数量，设置超时与重试。

常见陷阱：未绑定变量——在 FILTER 或 SELECT 中使用未在 BGP 中出现的变量（除非在 OPTIONAL 中）；聚合与 GROUP BY——SELECT 中非分组变量必须出现在聚合函数内；属性路径的语义——路径不暴露中间节点，若需要中间节点要用显式 BGP；联邦超时与空结果——远程不可用时整查询可能失败或返回不完整结果。

优化：选择性优先、FILTER 下推、限制 OPTIONAL/SERVICE 范围；陷阱：未绑定变量、聚合规则、路径语义、联邦超时

一句话： SPARQL 1.1 进阶包括：聚合（GROUP BY、COUNT/SUM/AVG、HAVING）与子查询；属性路径（/、^、+、*、|）表达多步与反向；联邦（SERVICE <url> { pattern }）跨端点查询；更新（INSERT/DELETE DATA 或 WHERE）。优化注意选择性、连接顺序、FILTER 位置与 SERVICE 限流；陷阱包括未绑定变量、聚合与 GROUP BY、路径不暴露中间节点、联邦超时。

实践： 在 DBpedia 或 Wikidata 端点写一条带 GROUP BY 和 COUNT 的查询（如按类型统计实体数）；再写一条属性路径查询（如 ex:parent+ 或 wdt:P31/wdt:P279*）；若端点支持，试一条带 SERVICE 的联邦查询（本地小图 + 远程 DBpedia），观察超时与结果。

六、小结

SPARQL 1.1 提供聚合与子查询、属性路径、联邦查询（SERVICE）与更新。聚合用 GROUP BY 与 COUNT/SUM 等；属性路径用 /、^、+、*、| 表达多步与反向；SERVICE 在一条查询中访问远程端点；更新用 INSERT/DELETE。优化时注意选择性、FILTER 下推与 SERVICE 限流；避免未绑定变量、聚合规则错误与联邦超时。下一章讲属性图查询：Cypher 与 Gremlin。