XPath 教程(建议收藏)

更新时间:

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 82w+ 字,讲解图 3441+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2900+ 小伙伴加入学习 ,欢迎点击围观

前言

在编程和数据提取领域,XPath 教程是开发者必须掌握的核心技能之一。无论是解析 XML 文件、自动化网页数据抓取,还是构建复杂的自动化测试脚本,XPath 都能提供高效精准的节点定位能力。本文将从零开始,通过循序渐进的讲解和生动案例,帮助编程初学者和中级开发者快速掌握 XPath 的核心原理与实战技巧。


基础概念:理解 XPath 的逻辑框架

什么是 XPath?

XPath(XML Path Language)是一种用于在 XML/HTML 文档中定位节点或值的查询语言。它可以看作是文档结构的“导航地图”,通过路径表达式精准定位到目标元素。例如,在解析网页时,XPath 可以帮助开发者快速找到特定的表格、按钮或文本内容。

XML 文档的树形结构

XPath 的设计基于 XML 文档的树形结构。每个 XML 元素都是树中的一个“节点”,节点之间通过父子、兄弟等关系连接。例如,以下 XML 片段:

<books>  
  <book id="1">  
    <title>Python 入门</title>  
    <author>张三</author>  
    <price>59.9</price>  
  </book>  
  <book id="2">  
    <title>JavaScript 教程</title>  
    <author>李四</author>  
    <price>49.9</price>  
  </book>  
</books>  

可以视为一棵树:根节点是 <books>,每个 <book> 是子节点,而 <title><author> 等是孙节点。

节点类型与路径表达式

XPath 支持 7 种节点类型:元素、属性、文本、命名空间、处理指令、注释和文档节点。路径表达式则通过组合符号(如 ///@)描述节点之间的路径关系。例如:

  • /books/book:从根节点 <books> 开始,直接选取所有 <book> 子节点。
  • //title:在整个文档中选取所有 <title> 节点。

路径表达式详解:从简单到复杂

绝对路径与相对路径

绝对路径从根节点开始逐级定位,例如:

/books/book[1]/title  # 选取第一个 <book> 的 <title>  

相对路径以当前节点为起点,例如:

//book[./price > 50]  # 选取所有 price 超过 50 的 <book>  

通配符与模糊匹配

XPath 提供了多种通配符简化路径表达式:

  • *:匹配任意元素节点。例如 //book/* 会选取所有 <book> 的子元素。
  • @*:匹配任意属性节点。例如 /book/@id 会选取 <book>id 属性。
  • text():匹配文本节点。例如 /book/title/text() 会直接获取 <title> 的文本内容。

节点轴(Axes)的直观理解

轴是 XPath 中描述节点间关系的核心概念。例如:

  • child:::选取当前节点的子节点(默认轴,可省略)。
  • parent:::选取当前节点的父节点。
  • ancestor:::选取当前节点的所有祖先节点。

下表总结了常用轴及其含义:

轴名描述示例路径表达式
child当前节点的直接子节点.//title
parent当前节点的父节点../@id
descendant当前节点的所有后代节点//book/descendant::price
attribute当前节点的属性节点@id
following-sibling当前节点之后的兄弟节点following-sibling::book

XPath 的筛选与运算:实现精准定位

索引与位置筛选

通过方括号 [] 可以添加条件筛选:

/book[1]          # 选取第一个 <book> 节点  
/book[last()]     # 选取最后一个 <book> 节点  
/book[position() < 3]  # 选取前两个 <book> 节点  

比较运算符与逻辑运算

XPath 支持 =, !=, <, >, and, or 等运算符,例如:

//book[price > 50 and author = '张三']  # 选取价格高于50且作者为张三的书籍  

函数的灵活应用

XPath 内置了大量函数提升表达式能力:

  • contains():判断文本是否包含特定字符串。
    //title[contains(text(), '入门')]  # 选取标题包含“入门”的书籍  
    
  • starts-with():判断文本是否以特定字符串开头。
    //title[starts-with(text(), 'Java')]  # 选取以“Java”开头的书籍标题  
    

实战案例:解析 XML 数据

案例背景

假设我们有一个书籍目录 XML 文件,结构如下:

<library>  
  <section name="编程类">  
    <book id="B001">  
      <title>Python 核心编程</title>  
      <author>Guido van Rossum</author>  
      <price>79.9</price>  
    </book>  
    <book id="B002">  
      <title>设计模式</title>  
      <author>Gamma</author>  
      <price>69.9</price>  
    </book>  
  </section>  
  <section name="小说类">  
    <book id="B003">  
      <title>三体</title>  
      <author>刘慈欣</author>  
      <price>49.9</price>  
    </book>  
  </section>  
</library>  

查询需求与 XPath 实现

  1. 获取所有书籍的标题

    //book/title  
    
  2. 筛选价格高于 60 元的书籍

    //book[price > 60]  
    
  3. 获取“编程类”章节下的书籍作者

    //section[@name='编程类']/book/author  
    
  4. 选取最后一个书籍节点的 ID

    //book[last()]/@id  
    

高级技巧:命名空间与动态匹配

处理 XML 命名空间

当 XML 文档包含命名空间时,需通过 namespace-uri() 函数或前缀声明来定位节点。例如:

<books xmlns="http://example.com/books">  
  <book>...</book>  
</books>  

对应的 XPath 可写为:

//book[namespace-uri()='http://example.com/books']  

使用通配符与条件组合

结合 *@* 可实现动态匹配:

/*/*[@id and contains(title, '编程')]  # 选取任意层级下有 id 属性且标题含“编程”的节点  

结论

通过本文的系统学习,开发者可以掌握从基础到高级的 XPath 教程 知识点,并通过实际案例理解其应用场景。XPath 的核心在于将文档视为树形结构,并通过路径表达式精准定位目标节点。无论是自动化测试、数据抓取还是 XML 配置解析,XPath 都是不可或缺的工具。建议读者通过练习不同场景的查询需求,逐步提升对复杂表达式的理解与应用能力。

掌握 XPath 后,开发者可以更高效地处理结构化数据,为后续的网页爬虫开发、配置文件解析等进阶任务打下坚实基础。

最新发布