首页
/ 正文

XPath 教程（建议收藏）

更新时间: 2025-04-12 10:23:30

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

前言

在编程和数据提取领域，XPath 教程是开发者必须掌握的核心技能之一。无论是解析 XML 文件、自动化网页数据抓取，还是构建复杂的自动化测试脚本，XPath 都能提供高效精准的节点定位能力。本文将从零开始，通过循序渐进的讲解和生动案例，帮助编程初学者和中级开发者快速掌握 XPath 的核心原理与实战技巧。

基础概念：理解 XPath 的逻辑框架

什么是 XPath？

XPath（XML Path Language）是一种用于在 XML/HTML 文档中定位节点或值的查询语言。它可以看作是文档结构的“导航地图”，通过路径表达式精准定位到目标元素。例如，在解析网页时，XPath 可以帮助开发者快速找到特定的表格、按钮或文本内容。

XML 文档的树形结构

XPath 的设计基于 XML 文档的树形结构。每个 XML 元素都是树中的一个“节点”，节点之间通过父子、兄弟等关系连接。例如，以下 XML 片段：

<books>  
  <book id="1">  
    <title>Python 入门</title>  
    <author>张三</author>  
    <price>59.9</price>  
  </book>  
  <book id="2">  
    <title>JavaScript 教程</title>  
    <author>李四</author>  
    <price>49.9</price>  
  </book>  
</books>

可以视为一棵树：根节点是 <books>，每个 <book> 是子节点，而 <title>、<author> 等是孙节点。

节点类型与路径表达式

XPath 支持 7 种节点类型：元素、属性、文本、命名空间、处理指令、注释和文档节点。路径表达式则通过组合符号（如 /、//、@）描述节点之间的路径关系。例如：

/books/book：从根节点 <books> 开始，直接选取所有 <book> 子节点。
//title：在整个文档中选取所有 <title> 节点。

路径表达式详解：从简单到复杂

绝对路径与相对路径

绝对路径从根节点开始逐级定位，例如：

/books/book[1]/title  # 选取第一个 <book> 的 <title>

相对路径以当前节点为起点，例如：

//book[./price > 50]  # 选取所有 price 超过 50 的 <book>

通配符与模糊匹配

XPath 提供了多种通配符简化路径表达式：

*：匹配任意元素节点。例如 //book/* 会选取所有 <book> 的子元素。
@*：匹配任意属性节点。例如 /book/@id 会选取 <book> 的 id 属性。
text()：匹配文本节点。例如 /book/title/text() 会直接获取 <title> 的文本内容。

节点轴（Axes）的直观理解

轴是 XPath 中描述节点间关系的核心概念。例如：

child::：选取当前节点的子节点（默认轴，可省略）。
parent::：选取当前节点的父节点。
ancestor::：选取当前节点的所有祖先节点。

下表总结了常用轴及其含义：

轴名	描述	示例路径表达式
child	当前节点的直接子节点	`.//title`
parent	当前节点的父节点	`../@id`
descendant	当前节点的所有后代节点	`//book/descendant::price`
attribute	当前节点的属性节点	`@id`
following-sibling	当前节点之后的兄弟节点	`following-sibling::book`

XPath 的筛选与运算：实现精准定位

索引与位置筛选

通过方括号 [] 可以添加条件筛选：

/book[1]          # 选取第一个 <book> 节点  
/book[last()]     # 选取最后一个 <book> 节点  
/book[position() < 3]  # 选取前两个 <book> 节点

比较运算符与逻辑运算

XPath 支持 =, !=, <, >, and, or 等运算符，例如：

//book[price > 50 and author = '张三']  # 选取价格高于50且作者为张三的书籍

函数的灵活应用

XPath 内置了大量函数提升表达式能力：

contains()：判断文本是否包含特定字符串。

//title[contains(text(), '入门')]  # 选取标题包含“入门”的书籍

starts-with()：判断文本是否以特定字符串开头。

//title[starts-with(text(), 'Java')]  # 选取以“Java”开头的书籍标题

实战案例：解析 XML 数据

案例背景

假设我们有一个书籍目录 XML 文件，结构如下：

<library>  
  <section name="编程类">  
    <book id="B001">  
      <title>Python 核心编程</title>  
      <author>Guido van Rossum</author>  
      <price>79.9</price>  
    </book>  
    <book id="B002">  
      <title>设计模式</title>  
      <author>Gamma</author>  
      <price>69.9</price>  
    </book>  
  </section>  
  <section name="小说类">  
    <book id="B003">  
      <title>三体</title>  
      <author>刘慈欣</author>  
      <price>49.9</price>  
    </book>  
  </section>  
</library>

查询需求与 XPath 实现

获取所有书籍的标题：
```
//book/title  
```
筛选价格高于 60 元的书籍：
```
//book[price > 60]  
```
获取“编程类”章节下的书籍作者：
```
//section[@name='编程类']/book/author  
```
选取最后一个书籍节点的 ID：
```
//book[last()]/@id  
```

高级技巧：命名空间与动态匹配

处理 XML 命名空间

当 XML 文档包含命名空间时，需通过 namespace-uri() 函数或前缀声明来定位节点。例如：

<books xmlns="http://example.com/books">  
  <book>...</book>  
</books>

对应的 XPath 可写为：

//book[namespace-uri()='http://example.com/books']

使用通配符与条件组合

结合 * 和 @* 可实现动态匹配：

/*/*[@id and contains(title, '编程')]  # 选取任意层级下有 id 属性且标题含“编程”的节点

结论

通过本文的系统学习，开发者可以掌握从基础到高级的 XPath 教程 知识点，并通过实际案例理解其应用场景。XPath 的核心在于将文档视为树形结构，并通过路径表达式精准定位目标节点。无论是自动化测试、数据抓取还是 XML 配置解析，XPath 都是不可或缺的工具。建议读者通过练习不同场景的查询需求，逐步提升对复杂表达式的理解与应用能力。

掌握 XPath 后，开发者可以更高效地处理结构化数据，为后续的网页爬虫开发、配置文件解析等进阶任务打下坚实基础。

XPath 教程（建议收藏）

前言

基础概念：理解 XPath 的逻辑框架

什么是 XPath？

XML 文档的树形结构

节点类型与路径表达式

路径表达式详解：从简单到复杂

绝对路径与相对路径

通配符与模糊匹配

节点轴（Axes）的直观理解

XPath 的筛选与运算：实现精准定位

索引与位置筛选

比较运算符与逻辑运算

函数的灵活应用

实战案例：解析 XML 数据

案例背景

查询需求与 XPath 实现

高级技巧：命名空间与动态匹配

处理 XML 命名空间

使用通配符与条件组合

结论

最新发布

jQuery.each()方法（长文解析）

jQuery.extend()方法（长文解析）

jQuery.fn.extend()方法（千字长文）

jQuery.globalEval()方法（长文讲解）

jQuery.grep() 方法（长文讲解）

jQuery.inArray() 方法（长文讲解）

jQuery.isArray() 方法（手把手讲解）

jQuery.isEmptyObject() 方法（千字长文）

jQuery.isFunction() 方法（建议收藏）

jQuery.isNumeric() 方法（手把手讲解）