首页
/ 正文

Python 使用正则表达式提取字符串中的 URL（手把手讲解）

更新时间: 2025-04-16 16:54:06

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

从零开始掌握：Python 使用正则表达式提取字符串中的 URL

前言：为什么需要提取 URL？

在数据处理、爬虫开发或文本分析场景中，我们经常需要从一段文字中快速提取出所有 URL 地址。例如，分析社交媒体动态时，提取用户分享的链接；或者在日志文件中筛选特定 API 请求的地址。Python 的正则表达式（Regular Expression，简称 regex）提供了强大的文本匹配能力，能够高效完成这一任务。

本文将从基础概念讲起，逐步拆解如何用 Python 正则表达式精准提取 URL，并通过实际案例和代码示例，帮助读者掌握这一技能。无论是编程初学者还是有一定经验的开发者，都能从中获得实用的知识。

正则表达式基础：理解符号与逻辑

什么是正则表达式？

正则表达式是一种描述文本模式的“语言”，它通过特定符号和组合规则，定义字符串的搜索、匹配规则。可以将其想象为“文本寻宝图”：

字母与数字：直接匹配字符，如 hello 匹配字符串中的 "hello"。
元字符：特殊符号，表示复杂规则，例如 . 表示任意字符，* 表示重复前一个字符零次或多次。

常用元字符表

符号	含义	示例
`.`	匹配除换行符外的任意单个字符	`a.c` 匹配 "abc" 或 "a1c"
`*`	匹配前一个字符零次或多次	`a*b` 匹配 "b"、"ab"、"aaab"
`+`	匹配前一个字符一次或多次	`a+b` 匹配 "ab"、"aab"，但不匹配 "b"
`?`	匹配前一个字符零次或一次	`colou?r` 匹配 "color" 或 "colour"
`^`	匹配字符串开头	`^http` 匹配以 "http" 开头的字符串
`$`	匹配字符串结尾	`\.com$` 匹配以 ".com" 结尾的字符串

Python 中的正则表达式模块 `re`

Python 内置的 re 模块提供了正则表达式功能。常用函数包括：

re.search(pattern, string)：在字符串中搜索子串，返回第一个匹配对象。
re.findall(pattern, string)：返回所有匹配的子串列表。
re.match(pattern, string)：仅匹配字符串开头。

import re  
text = "Visit https://example.com for more info."  
match = re.search(r"https?://\S+", text)  
if match:  
    print("Found URL:", match.group())  # 输出 "https://example.com"

URL 的组成与匹配逻辑

URL 的基本结构

一个典型的 URL 包含以下部分：

协议：如 http://、https:// 或 ftp://。
域名：如 example.com 或 sub.domain.co.uk。
端口（可选）：如 :8080。
路径（可选）：如 /path/to/resource。
查询参数（可选）：如 ?key=value。
片段标识符（可选）：如 #section。

初级 URL 匹配：基础模式

最简单的 URL 匹配模式可以从协议开始，例如：

pattern = r"https?://\S+"

示例代码：

text = "Check out http://example.com and https://test.net/page?query=1"  
urls = re.findall(r"https?://\S+", text)  
print(urls)  # 输出 ['http://example.com', 'https://test.net/page?query=1']

进阶技巧：处理复杂 URL 场景

问题 1：匹配包含端口的 URL

某些 URL 包含端口号，例如 http://localhost:5000/api。此时需要添加对 :[0-9]+ 的支持：

pattern = r"https?://(?:\w+\.)+\w+(?::\d+)?(?:/[^\s]*)?"

示例代码：

text = "API endpoint: http://api.example.com:8080/v1/data"  
url = re.search(r"https?://\S+", text).group()  
print(url)  # 输出 "http://api.example.com:8080/v1/data"

问题 2：排除非标准协议的干扰

若文本中存在类似 mailto:contact@example.com 的非 URL 链接，需通过协议限定：

pattern = r"https?://[^\s]+"

问题 3：处理路径与参数中的特殊字符

URL 路径可能包含 ?、# 等符号，但正则表达式需确保不匹配到空格：

pattern = r"https?://[^\s]+"

完善匹配模式：全面覆盖 URL 变体

综合正则表达式模式

通过组合元字符和分组，构建一个更健壮的 URL 匹配模式：

url_pattern = r"""  
https?://          # 协议部分  
(?:                # 非捕获组，匹配域名部分  
    [a-zA-Z0-9-]+\.[a-zA-Z]{2,}  # 主域名（如 example.com）  
    (?:\.[a-zA-Z]{2,})?         # 可选的顶级域名（如 .co.uk）  
    (?:[:\d]+)?                # 可选的端口号（如 :8080）  
)  
(?:/               # 开始匹配路径  
    [^\\/\s]*      # 路径中的字符（排除斜杠和空格）  
)?  
(?:                # 可选的查询参数或片段  
    \?[^\\s]*|\#[^\\s]*  
)?  
"""

使用时需注意：

import re  
text = "Visit https://example.com:8080/path?query=1#section"  
urls = re.findall(url_pattern, text, re.VERBOSE)  
print(urls)  # 输出完整的 URL 匹配结果

常见问题与解决方案

问题 1：正则表达式过于宽松

若匹配到非 URL 内容，例如 //example.com（缺少协议），需在模式中强制要求 http 或 https：

问题 2：忽略协议的 URL

某些场景中 URL 可能省略协议（如 //cdn.example.com/image.jpg）。此时需根据需求选择是否包含协议：

问题 3：调试与测试工具

使用在线工具（如 regex101 ）可直观查看匹配过程，避免复杂正则的调试困难。

实战案例：从长文本中批量提取 URL

场景描述

假设我们有一段包含多条 URL 的文本：

Please check these links:  
- Official site: http://www.example.com  
- Documentation: https://docs.example.com/v2  
- Internal API: http://api.local:3000/endpoint?token=abc123

完整代码实现

import re  

text = """  
Please check these links:  
- Official site: http://www.example.com  
- Documentation: https://docs.example.com/v2  
- Internal API: http://api.local:3000/endpoint?token=abc123  
- Social media: https://twitter.com/user  
"""  

pattern = r"https?://(?:[a-zA-Z0-9-]+\.)+[a-zA-Z]{2,}(?::\d+)?(?:/[^\s]*)?(?:\?[^\s]*)?(?:#[^\s]*)?"  
urls = re.findall(pattern, text)  

print("Extracted URLs:")  
for url in urls:  
    print("-", url)

运行结果：

Extracted URLs:  
- http://www.example.com  
- https://docs.example.com/v2  
- http://api.local:3000/endpoint?token=abc123  
- https://twitter.com/user

最佳实践与优化建议

1. 使用非贪婪匹配

在路径或参数部分使用 .*? 而非 .*，避免过度匹配：

2. 分段调试复杂正则

将长正则拆分为多个小部分，逐步验证每个组件的正确性。

3. 处理编码与特殊字符

若 URL 中包含 %20 等编码字符，无需特殊处理，正则表达式默认支持：

re.search(r"https?://\S+", "https://example.com/path%20with%20space")

4. 结合其他方法增强可靠性

对于复杂场景，可先用正则提取候选 URL，再通过 urllib.parse 验证合法性：

from urllib.parse import urlparse  

def is_valid_url(url):  
    try:  
        result = urlparse(url)  
        return all([result.scheme, result.netloc])  
    except ValueError:  
        return False  

urls = re.findall(r"https?://\S+", text)  
valid_urls = [u for u in urls if is_valid_url(u)]

结论：掌握 URL 提取的核心价值

通过本文的学习，读者应能：

理解正则表达式的基础语法与逻辑；
构建适合不同场景的 URL 匹配模式；
通过案例代码实现从文本中批量提取 URL；
掌握调试与优化正则表达式的实用技巧。

Python 的正则表达式功能强大，但需注意其灵活性与复杂性之间的平衡。建议读者在实际项目中结合具体需求，逐步完善匹配规则，并善用调试工具提升效率。掌握这一技能后，你将能更高效地处理文本中的 URL 信息，为数据分析、爬虫开发等任务打下坚实基础。

如需进一步学习，可探索 Python 标准库 re 的文档，或研究更专业的 URL 解析库（如 tldextract）。实践是提升的关键——尝试用本文的代码示例处理你遇到的实际问题吧！

Python 使用正则表达式提取字符串中的 URL（手把手讲解）

从零开始掌握：Python 使用正则表达式提取字符串中的 URL

前言：为什么需要提取 URL？

正则表达式基础：理解符号与逻辑

什么是正则表达式？

常用元字符表

Python 中的正则表达式模块 `re`

URL 的组成与匹配逻辑

URL 的基本结构

初级 URL 匹配：基础模式

进阶技巧：处理复杂 URL 场景

问题 1：匹配包含端口的 URL

问题 2：排除非标准协议的干扰

问题 3：处理路径与参数中的特殊字符

完善匹配模式：全面覆盖 URL 变体

综合正则表达式模式

常见问题与解决方案

问题 1：正则表达式过于宽松

问题 2：忽略协议的 URL

问题 3：调试与测试工具

实战案例：从长文本中批量提取 URL

场景描述

完整代码实现

最佳实践与优化建议

1. 使用非贪婪匹配

2. 分段调试复杂正则

3. 处理编码与特殊字符

4. 结合其他方法增强可靠性

结论：掌握 URL 提取的核心价值

最新发布

jQuery.each()方法（长文解析）

jQuery.extend()方法（长文解析）

jQuery.fn.extend()方法（千字长文）

jQuery.globalEval()方法（长文讲解）

jQuery.grep() 方法（长文讲解）

jQuery.inArray() 方法（长文讲解）

jQuery.isArray() 方法（手把手讲解）

jQuery.isEmptyObject() 方法（千字长文）

jQuery.isFunction() 方法（建议收藏）

jQuery.isNumeric() 方法（手把手讲解）

Python 使用正则表达式提取字符串中的 URL（手把手讲解）

从零开始掌握：Python 使用正则表达式提取字符串中的 URL

前言：为什么需要提取 URL？

正则表达式基础：理解符号与逻辑

什么是正则表达式？

常用元字符表

Python 中的正则表达式模块 re

URL 的组成与匹配逻辑

URL 的基本结构

初级 URL 匹配：基础模式

进阶技巧：处理复杂 URL 场景

问题 1：匹配包含端口的 URL

问题 2：排除非标准协议的干扰

问题 3：处理路径与参数中的特殊字符

完善匹配模式：全面覆盖 URL 变体

综合正则表达式模式

常见问题与解决方案

问题 1：正则表达式过于宽松

问题 2：忽略协议的 URL

问题 3：调试与测试工具

实战案例：从长文本中批量提取 URL

场景描述

完整代码实现

最佳实践与优化建议

1. 使用非贪婪匹配

2. 分段调试复杂正则

3. 处理编码与特殊字符

4. 结合其他方法增强可靠性

结论：掌握 URL 提取的核心价值

最新发布

jQuery.each()方法（长文解析）

jQuery.extend()方法（长文解析）

jQuery.fn.extend()方法（千字长文）

jQuery.globalEval()方法（长文讲解）

jQuery.grep() 方法（长文讲解）

jQuery.inArray() 方法（长文讲解）

jQuery.isArray() 方法（手把手讲解）

jQuery.isEmptyObject() 方法（千字长文）

jQuery.isFunction() 方法（建议收藏）

jQuery.isNumeric() 方法（手把手讲解）

Python 中的正则表达式模块 `re`