首页
/ 正文

RegExp + 量词（长文讲解）

更新时间: 2025-04-09 01:04:43

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

前言

在编程与文本处理领域，正则表达式（RegExp）如同一把瑞士军刀，能够精准地定位、提取和验证文本中的模式。而“量词”则是这把工具中不可或缺的“调节阀”，它决定了模式中某个字符或子模式可以重复的次数。无论是验证邮箱格式、提取日志中的时间戳，还是编写复杂的密码规则，掌握量词的使用逻辑都是高效利用正则表达式的关键。本文将从基础概念出发，结合实际案例，深入解析量词的语法与应用场景，帮助开发者逐步构建对“RegExp + 量词”组合的理解。

基础概念：正则表达式与量词的协作关系

正则表达式：文本匹配的“语法”

正则表达式是一种描述文本模式的符号语言，它通过字符、元字符和特殊符号的组合，定义了一组字符串的规则。例如：

/^\d{4}-\d{2}-\d{2}$/ 可以匹配形如 2023-12-25 的日期格式。
/^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/ 用于验证邮箱地址的合法性。

量词：控制重复次数的“调节器”

量词（Quantifiers）是正则表达式中用于指定前面的字符、字符组或子模式可以重复的次数的符号。它们的作用类似于交通灯，控制着模式的“通过性”：

* 表示“零次或多次”
+ 表示“一次或多次”
? 表示“零次或一次”
{n} 表示“恰好 n 次”
{n,} 表示“至少 n 次”
{n,m} 表示“至少 n 次，最多 m 次”

形象比喻：
量词就像“伸缩门”，控制着字符的重复范围。例如，a* 允许字母 a 在匹配位置出现 0 次（直接跳过）或多次（如 aaaa）。

量词详解：从简单到复杂

基础量词：*、+、? 的核心用法

1. `*`：零次或多次（贪婪模式）

* 允许前面的元素重复任意次数，甚至完全不出现。例如：

/colou?r/.test("color"); // true（匹配 "color"）  
/colou?r/.test("colour"); // false（因为 "ou?" 只能匹配 0 或 1 个 "u"）

注意：* 会尽可能多地匹配，直到无法满足后续条件。

2. `+`：一次或多次

与 * 类似，但要求至少出现一次。例如：

/a+/g.exec("aaaab"); // ["aaaa"]

若目标字符串中没有 a，则匹配失败：

/a+/g.exec("bbb"); // null

3. `?`：零次或一次

用于表示某个字符或组可有可无。例如：

/https?/.test("http"); // true  
/https?/.test("https"); // true

进阶量词：精确控制重复次数

1. `{n}`：精确次数

指定必须重复 n 次。例如：

/\d{4}/.test("2023"); // true（4 位数字）  
/\d{4}/.test("202"); // false（不足 4 次）

2. `{n,}`：至少 n 次

例如，要求密码长度至少为 8 个字符：

/^\w{8,}$/.test("pass1234"); // true

3. `{n,m}`：范围限制

限制重复次数在 n 到 m 之间。例如，匹配 3 到 5 位数字：

/\d{3,5}/.test("1234"); // true

量词的“贪心”与“非贪心”模式

默认情况下，量词（如 *、+、{n,}）会采用贪心模式，即尽可能多的匹配字符，直到无法继续。例如：

/"[^"]*"/.exec('"<a>""<b>"'); // 匹配整个字符串，因为贪心模式会尽可能扩展

若希望最小化匹配，可以添加 ? 转义符，启用非贪心模式：

/"[^"]*?"/.exec('"<a>""<b>"'); // 匹配第一个 "..." 的内容 "<a>"

实战案例：量词在真实场景中的应用

案例 1：验证电话号码格式

假设电话号码格式为 XXX-XXXXXXX（3 位区号 + 7 位号码）：

const phoneRegex = /^\d{3}-\d{7}$/;  
phoneRegex.test("123-4567890"); // true  
phoneRegex.test("12-4567890"); // false（区号不足 3 位）

案例 2：提取 HTML 标签内容

非贪心量词可避免匹配到多余内容：

const html = '<div class="main">Content here</div>';  
const regex = /<div.*?>(.*?)<\/div>/;  
const match = regex.exec(html);  
console.log(match[1]); // 输出 "Content here"

案例 3：密码强度验证

要求：

至少 8 个字符
包含大写字母、小写字母、数字

const passwordRegex = /^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,}$/;

此处 .{8,} 使用量词确保长度符合要求。

高级技巧与常见误区

技巧 1：分组与量词的配合

通过 () 创建分组，再对组应用量词。例如，匹配多个单词：

/[a-zA-Z]+(?: [a-zA-Z]+)*/.test("Hello World"); // true

此正则表示“以单词开头，后跟零个或多个空格+单词”。

技巧 2：避免“过度匹配”

若使用 .* 而不加限制，可能导致性能问题或错误。例如：

// 错误示例：匹配文件扩展名  
const filename = "report.pdf.txt";  
const wrongRegex = /\.([^.]*)$/; // 匹配 ".txt"  
const correctRegex = /\.(?:[^.]*)$/; // 非捕获组更高效

常见误区

混淆 * 和 +
- a* 允许 a 不出现，而 a+ 必须至少出现一次。
忽略量词的优先级
量词默认作用于前一个字符或组。例如：a*b 匹配 a 的任意次后跟 b，而非 ab 的重复。
贪心模式导致匹配过长
在需要短匹配时，忘记添加 ?。

总结与展望

正则表达式与量词的结合，为文本处理提供了强大的灵活性与精确性。通过理解量词的语法逻辑、掌握贪心与非贪心模式的区别，并结合实际案例练习，开发者可以高效地构建复杂模式。随着经验的积累，甚至可以尝试更高级的技巧，例如：

使用前瞻（Lookahead）和后顾（Lookbehind）实现条件匹配
结合 Unicode 字符集处理多语言场景

正则表达式的学习如同学习一门新的语言，量词则是这门语言中的“语法结构”。通过持续实践，开发者能够将“RegExp + 量词”的组合转化为解决实际问题的利器。

附录：常用量词对照表

量词	含义	示例
`*`	零次或多次（贪心）	`a*` 匹配 `""` 或 `"aaaa"`
`+`	一次或多次（贪心）	`a+` 匹配 `"a"` 或 `"aaaa"`
`?`	零次或一次	`colou?r` 匹配 `"color"` 或 `"colour"`（非）
`{n}`	恰好 n 次	`\d{4}` 匹配 `"1234"`
`{n,}`	至少 n 次（贪心）	`.{5,}` 匹配 `5` 个或更多字符
`{n,m}`	在 n 到 m 次之间（贪心）	`\d{3,5}` 匹配 `3-5` 位数字
`*?`	非贪心版 `*`	`.*?` 最小化匹配
`+?`	非贪心版 `+`	`.+?` 最小化匹配

通过系统化地掌握这些工具，开发者可以更自信地应对文本处理中的各种挑战，让正则表达式成为代码世界的“文本魔术师”。

RegExp + 量词（长文讲解）

前言

基础概念：正则表达式与量词的协作关系

正则表达式：文本匹配的“语法”

量词：控制重复次数的“调节器”

量词详解：从简单到复杂

基础量词：*、+、? 的核心用法

1. `*`：零次或多次（贪婪模式）

2. `+`：一次或多次

3. `?`：零次或一次

进阶量词：精确控制重复次数

1. `{n}`：精确次数

2. `{n,}`：至少 n 次

3. `{n,m}`：范围限制

量词的“贪心”与“非贪心”模式

实战案例：量词在真实场景中的应用

案例 1：验证电话号码格式

案例 2：提取 HTML 标签内容

案例 3：密码强度验证

高级技巧与常见误区

技巧 1：分组与量词的配合

技巧 2：避免“过度匹配”

常见误区

总结与展望

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）

RegExp + 量词（长文讲解）

前言

基础概念：正则表达式与量词的协作关系

正则表达式：文本匹配的“语法”

量词：控制重复次数的“调节器”

量词详解：从简单到复杂

基础量词：*、+、? 的核心用法

1. *：零次或多次（贪婪模式）

2. +：一次或多次

3. ?：零次或一次

进阶量词：精确控制重复次数

1. {n}：精确次数

2. {n,}：至少 n 次

3. {n,m}：范围限制

量词的“贪心”与“非贪心”模式

实战案例：量词在真实场景中的应用

案例 1：验证电话号码格式

案例 2：提取 HTML 标签内容

案例 3：密码强度验证

高级技巧与常见误区

技巧 1：分组与量词的配合

技巧 2：避免“过度匹配”

常见误区

总结与展望

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）

1. `*`：零次或多次（贪婪模式）

2. `+`：一次或多次

3. `?`：零次或一次

1. `{n}`：精确次数

2. `{n,}`：至少 n 次

3. `{n,m}`：范围限制