首页
/ 正文

XPath 语法（长文讲解）

更新时间: 2025-04-06 09:59:29

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

XPath 语法：从基础到实战的深度解析
作者：XXX

前言

在网页爬虫、数据提取或 XML 文档处理中，XPath 语法是开发者必须掌握的核心工具之一。它如同一把精准的“数据导航仪”，能帮助开发者快速定位网页或 XML 文件中的目标节点。无论是初学者还是中级开发者，理解 XPath 的核心原理与灵活用法，都能显著提升数据处理效率。本文将从基础语法讲起，结合实例逐步深入，帮助读者掌握 XPath 的精髓。

一、XPath 的核心概念与基础语法

XPath（XML Path Language）是一种用于在 XML 文档中定位节点的语言，但如今也广泛应用于 HTML 文档的解析。其核心思想是通过路径表达式（Path Expression）定位文档中的元素。

1. 路径表达式的基本结构

XPath 的路径表达式可以分为以下三类：

绝对路径：从根节点（/）开始，逐层定位节点。例如 /html/body/div。
相对路径：以当前节点为起点，使用轴（Axis）或谓词（Predicate）定位目标节点。例如 //div[@class='content']。
混合路径：结合绝对和相对路径，例如 /html//div[@id='header']。

比喻说明：
可以将 XPath 比作图书馆的索引系统。绝对路径如同从图书馆入口开始逐层查找（“二楼→文学区→小说类→第5排”），而相对路径则是从当前区域直接搜索（“附近所有红色书架上的蓝色书籍”）。

2. 常用节点类型

XPath 支持以下节点类型：

元素节点：用元素名表示，如 div、span。
属性节点：用 @ 符号修饰，如 @class、@href。
文本节点：用 text() 函数获取元素内的文本内容。
通配符：* 表示任意元素节点，@* 表示任意属性节点。

示例代码：

<!-- HTML 片段 -->
<div class="container">
  <p id="intro">Hello World</p>
  <a href="/about">About Page</a>
</div>

对应的 XPath 表达式：

定位 div 元素：//div
获取 p 元素的文本内容：//p/text()
获取 a 元素的 href 属性：//a/@href

二、XPath 的核心语法扩展：轴（Axis）与谓词（Predicate）

1. 轴（Axis）：定位节点的方向

轴决定了路径表达式中节点的搜索方向。常用轴包括：

轴名	含义	示例表达式
`child`	当前节点的直接子节点	`div/child::p`
`descendant`	当前节点的所有后代节点	`//div/descendant::a`
`parent`	当前节点的父节点	`//p/parent::div`
`ancestor`	当前节点的所有祖先节点	`//a/ancestor::div`
`following`	当前节点之后的所有同级节点	`//div/following::span`
`preceding`	当前节点之前的所有同级节点	`//img/preceding::div`

比喻说明：
轴如同地图上的方向标记，例如 ancestor 轴是“向上追溯家族树”，而 following 轴是“向右看同辈中的后续成员”。

2. 谓词（Predicate）：筛选符合条件的节点

谓词通过 [] 括号添加在路径表达式中，用于过滤节点。常用条件包括：

属性匹配：[@class='content']
文本内容匹配：[text()='Hello']
位置索引：[1] 表示第一个节点，last() 表示最后一个节点
逻辑运算：[contains(@href, 'about')]

示例场景：
假设需要定位所有 class 包含 highlight 的 div 元素：

//div[contains(@class, 'highlight')]

三、XPath 的高级技巧与函数

1. 常用函数与运算符

XPath 提供了丰富的内置函数，可增强表达式的能力：

函数/运算符	作用	示例表达式
`contains()`	判断属性值是否包含指定字符串	`//a[contains(@href, 'blog')]`
`starts-with()`	判断属性值是否以指定字符串开头	`//div[starts-with(@id, 'sec')]`
`text()`	获取元素文本内容	`//h1/text()`
`position()`	获取节点在同级中的位置索引	`//li[position()=2]`
`and`、`or`	逻辑运算符	`//div[@class='main' and @id='header']`

比喻说明：
函数如同工具箱里的“万能钥匙”，例如 contains() 是“模糊搜索钥匙”，position() 是“坐标定位仪”。

2. 节点集合操作

XPath 允许多个表达式组合，例如：

//div[@class='post'] | //article[@id='featured']

该表达式会同时匹配 class 为 post 的 div 和 id 为 featured 的 article 元素。

四、实战案例：XPath 在网页爬虫中的应用

案例 1：提取商品列表信息

假设有一个电商网页的 HTML 结构如下：

<div class="product-list">
  <div class="product-item">
    <h2 class="title">Product A</h2>
    <span class="price">$99.99</span>
  </div>
  <div class="product-item">
    <h2 class="title">Product B</h2>
    <span class="price">$149.99</span>
  </div>
</div>

要提取所有商品的标题和价格，可用以下 XPath：

//div[@class='product-list']/div[@class='product-item']

//div[@class='product-item']/h2[@class='title']/text()

//div[@class='product-item']/span[@class='price']/text()

案例 2：动态网页的复杂选择器

某些网页使用动态生成的 id 或 class，此时需依赖其他属性或文本内容定位。例如：

<div id="dynamic-123">
  <a href="/login" class="btn">登录</a>
</div>

由于 id 是动态值，可用以下表达式定位登录按钮：

//a[contains(text(), '登录') and @class='btn']

五、常见问题与最佳实践

1. 为什么我的 XPath 表达式没有匹配到节点？

路径错误：检查元素层级是否正确，避免遗漏父级容器。
属性值包含空格：使用 contains() 而非 =，例如 [@class='content'] 可能失效，而 contains(@class, 'content') 更可靠。
动态内容：网页内容可能由 JavaScript 动态加载，需等待页面渲染完成。

2. 如何编写高效且稳定的 XPath？

避免绝对路径：绝对路径依赖完整的层级结构，易因页面变动失效。
优先使用唯一属性：如 id 或 data-* 自定义属性。
组合多个条件：例如 //button[@type='submit' and text()='Submit']。

结论

XPath 语法是开发者在处理结构化数据时的得力工具，其核心在于路径表达式与谓词的灵活组合。从基础的节点定位到高级的函数应用，掌握这些技巧能显著提升数据提取的效率与准确性。对于初学者，建议从简单路径开始练习，并逐步尝试复杂场景；中级开发者则可深入探索轴与函数的高级用法。

通过本文的讲解与案例，希望读者能建立对 XPath 的系统性理解，并在实际项目中游刃有余地运用这一语法。记住，实践是掌握技术的最佳途径——动手编写 XPath 表达式，观察其匹配结果，逐步优化你的数据提取策略吧！

（全文约 1800 字）

XPath 语法（长文讲解）

前言

一、XPath 的核心概念与基础语法

1. 路径表达式的基本结构

2. 常用节点类型

二、XPath 的核心语法扩展：轴（Axis）与谓词（Predicate）

1. 轴（Axis）：定位节点的方向

2. 谓词（Predicate）：筛选符合条件的节点

三、XPath 的高级技巧与函数

1. 常用函数与运算符

2. 节点集合操作

四、实战案例：XPath 在网页爬虫中的应用

案例 1：提取商品列表信息

案例 2：动态网页的复杂选择器

五、常见问题与最佳实践

1. 为什么我的 XPath 表达式没有匹配到节点？

2. 如何编写高效且稳定的 XPath？

结论

最新发布

RSS guid 元素（手把手讲解）

RSS source 元素（手把手讲解）

RDF 简介（一文讲透）

RDF 规则（手把手讲解）

RDF 实例（长文解析）

RDF 主要元素（长文讲解）

RDF 容器（手把手讲解）

RDF 集合（长文讲解）

RDF Schema（长文解析）

RDF 都柏林核心（长文解析）