首页
/ 正文

正则表达式 – 简介（千字长文）

更新时间: 2025-04-02 12:28:06

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

前言：为什么需要正则表达式？

在编程的世界里，文本处理是一项基础且高频的任务。无论是验证用户输入的邮箱格式、提取日志中的关键信息，还是批量替换文档中的特定内容，开发者都需要一种灵活而强大的工具来应对这些需求。正则表达式（Regular Expression，简称 regex 或 regexp）正是为此而生。它如同一把精密的瑞士军刀，能以简洁的语法完成复杂的文本模式匹配与操作。

正则表达式的核心价值在于其“模式匹配”的能力。通过组合特定字符和符号，开发者可以定义规则，让计算机自动识别、提取或修改符合规则的文本片段。对于编程初学者来说，掌握正则表达式不仅能提升代码效率，更能培养对文本结构的抽象思维能力。

一、正则表达式的基本概念与语法

1.1 正则表达式是什么？

正则表达式是一种描述文本模式的符号语言。它通过一系列字符和元字符（special characters）的组合，定义需要匹配的字符串规则。例如：

^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,4}$ 可以匹配邮箱地址的格式
\d{4}-\d{2}-\d{2} 可以匹配日期格式（如 2023-12-31）

形象比喻：
正则表达式就像“文本侦探”，它根据预设的规则，在一段文字中搜寻符合条件的线索。元字符就是侦探的工具箱，比如放大镜（.* 表示任意字符）、手电筒（\d 仅照亮数字）等。

1.2 基础语法结构

1.2.1 字面字符与元字符

字面字符：直接表示字符本身。例如 hello 匹配字符串中的“hello”。
元字符：具有特殊含义的符号，需用反斜杠 \ 转义才能匹配其字面值。例如：
- . 匹配任意单个字符（除换行符）
- ^ 表示字符串的开头
- $ 表示字符串的结尾

1.2.2 字符类与量词

元字符/符号	含义	示例
`.`	匹配除换行符外的任意单个字符	`a.c` 匹配 "abc" 或 "a2c"
`[]`	定义字符集合，匹配其中任意一个字符	`[abc]` 匹配 "a"、"b" 或 "c"
`\|`	表示“或”关系，匹配左右任意一个模式	`cat\|dog` 匹配 "cat" 或 "dog"
`*`	匹配前面的元素零次或多次	`colou?r` 匹配 "color" 或 "colour"
`+`	匹配前面的元素一次或多次	`a+` 匹配 "a"、"aa" 等
`?`	匹配前面的元素零次或一次	`go?d` 匹配 "god" 或 "gd"
`{n}`	匹配前面的元素恰好 n 次	`a{3}` 匹配 "aaa"
`{n,}`	匹配前面的元素至少 n 次	`a{2,}` 匹配 "aa"、"aaa" 等
`{n,m}`	匹配前面的元素至少 n 次，至多 m 次	`a{1,3}` 匹配 "a"、"aa" 或 "aaa"

1.3 边界匹配与锚点

^：匹配字符串的开头。例如 ^hello 只匹配以 "hello" 开头的字符串。
$：匹配字符串的结尾。例如 world$ 只匹配以 "world" 结尾的字符串。
\b：匹配单词边界（如字母与非字母字符的交界处）。例如 \bthe\b 匹配独立的 "the" 单词。

二、进阶技巧：分组、捕获与反向引用

2.1 分组与捕获

通过圆括号 () 可以将多个字符组合成一个分组，实现以下功能：

逻辑分组：例如 (a|b)c 匹配 "ac" 或 "bc"。
捕获组：默认将匹配的内容保存到变量中，供后续引用或替换使用。

示例：验证电话号码格式

import re

phone_pattern = r'^\(?\d{3}\)?[- ]?\d{3}[- ]?\d{4}$'
test_phone = "(123) 456-7890"
match = re.match(phone_pattern, test_phone)
print(match.group())  # 输出：(123) 456-7890

2.2 反向引用

捕获组的内容可通过 \1, \2 等反向引用。例如：

(\d{3})-\1 匹配如 "123-123" 的重复数字组合。
应用场景：验证密码是否包含两次重复的字符。

2.3 非捕获组与独立分组

非捕获组：使用 (?:...) 定义分组但不捕获内容。例如 (?:a|b)+ 匹配多个 a 或 b。
独立分组：(?>...) 表示“原子分组”，防止回溯（Backtracking），提升性能。

三、实际应用场景与代码示例

3.1 邮箱验证

正则表达式模式：

^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

解析：

^[a-zA-Z0-9._%+-]+：用户名部分，允许字母、数字及特殊字符。
@[a-zA-Z0-9.-]+：域名部分，允许字母、数字、点和短横线。
\.[a-zA-Z]{2,}$：顶级域名，至少两个字母（如 .com、.org）。

Python 实现：

def validate_email(email):
    pattern = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
    return re.match(pattern, email) is not None

print(validate_email("user@example.com"))  # True
print(validate_email("user@.com"))        # False

3.2 替换文本中的敏感词

示例需求：

将字符串中的敏感词（如“badword”）替换为“****”。

正则表达式与代码：

const text = "This is a badword example.";
const sanitized = text.replace(/badword/gi, "***");
console.log(sanitized);  // 输出：This is a *** example.

/g 表示全局替换，/i 表示不区分大小写。

3.3 提取网页中的链接

正则表达式模式：

https?://[^\s]+

解析：

https?：匹配 http 或 https。
://：固定字符串。
[^\s]+：匹配非空白字符的序列。

JavaScript 实现：

const htmlContent = "<a href='http://example.com'>Link</a>";
const links = htmlContent.match(/https?:\/\/[^\s]+/g);
console.log(links);  // 输出：["http://example.com"]

四、常见误区与调试技巧

4.1 贪婪与惰性匹配

默认情况下，量词（如 *, +）是“贪婪”的，即尽可能多匹配字符。使用 ? 可改为惰性模式：

贪婪模式：<.*> 匹配 <a>...<b> 时会匹配整个字符串。
惰性模式：<.*?> 会匹配最小可能的字符串（如 <a>）。

4.2 转义字符的陷阱

在编程语言中，反斜杠 \ 需要转义。例如在 Python 中：

pattern = "^\d+"
pattern = r"^\d+"  # 或 "^\d+"

4.3 调试工具推荐

在线测试工具：Regex101（支持高亮、解释和实时测试）。
IDE 插件：VS Code 的“Regex”扩展提供实时验证功能。

结论：正则表达式 – 学习与进阶建议

正则表达式是一门需要“边学边练”的技能。对于编程初学者，建议从基础语法开始，逐步尝试以下步骤：

小步验证：先测试单个元字符的效果，再组合复杂模式。
使用注释：在正则表达式中添加注释（部分语言支持）。
参考文档：查阅官方文档或权威书籍（如《精通正则表达式》）。

对于中级开发者，可进一步探索：

前瞻/后顾断言（如 (?=...) 和 (?<=...)）。
Unicode 支持：处理多语言字符。
性能优化：通过减少回溯和使用原子分组提升效率。

掌握正则表达式不仅能提升代码效率，更能培养一种“模式思维”。它如同一把钥匙，能打开文本处理的更多可能性。现在，是时候打开你的编辑器，尝试编写第一个正则表达式了吗？

正则表达式 – 简介（千字长文）

前言：为什么需要正则表达式？

一、正则表达式的基本概念与语法

1.1 正则表达式是什么？

1.2 基础语法结构

1.2.1 字面字符与元字符

1.2.2 字符类与量词

1.3 边界匹配与锚点

二、进阶技巧：分组、捕获与反向引用

2.1 分组与捕获

示例：验证电话号码格式

2.2 反向引用

2.3 非捕获组与独立分组

三、实际应用场景与代码示例

3.1 邮箱验证

正则表达式模式：

解析：

Python 实现：

3.2 替换文本中的敏感词

示例需求：

正则表达式与代码：

3.3 提取网页中的链接

正则表达式模式：

解析：

JavaScript 实现：

四、常见误区与调试技巧

4.1 贪婪与惰性匹配

4.2 转义字符的陷阱

4.3 调试工具推荐

结论：正则表达式 – 学习与进阶建议

最新发布

Java URL 处理（千字长文）

jQuery EasyUI 扩展 – Ribbon（超详细）

Java 发送邮件（一文讲透）

Java 多线程编程（一文讲透）

Java Applet 基础（超详细）

Java 文档注释（长文讲解）

JSP 教程（保姆级教程）

JSP 简介（千字长文）

JSP 开发环境搭建（手把手讲解）

JSP 结构（保姆级教程）