首页
/ 正文

Python urllib（建议收藏）

更新时间: 2025-04-16 00:15:40

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

一、前言：理解网络请求的本质

在数字化时代，互联网就像一张巨大的信息网，每个网页、API接口、数据服务都是这张网上的节点。而Python的urllib模块，就像是连接这些节点的“数字快递员”，它负责将我们的请求精准投递到目标服务器，并带回响应结果。对于编程初学者来说，掌握urllib不仅能理解网络通信的基本原理，还能为后续学习更复杂的爬虫技术、API调用打下坚实基础。本文将通过循序渐进的方式，带您从基础到实战全面掌握这一工具。

二、基础概念：网络请求的三要素

1. 请求的构成：像寄送包裹一样理解HTTP请求

我们可以将HTTP请求想象为寄送包裹的过程：

URL（统一资源定位符）：就像包裹上的收件地址，包含协议类型（HTTP/HTTPS）、域名、路径和参数。
请求方法：类似包裹上的“寄送方式”标签（如GET表示“查询类请求”，POST表示“提交数据”）。
请求头与数据：相当于包裹的附加说明（如内容类型、身份认证信息）和包裹内的实际物品（如表单数据、JSON文件）。

2. 响应的解析：拆开包裹看内容

服务器返回的响应包含三部分：

状态码：200表示“包裹已安全送达”，404则是“地址不存在”。
响应头：告知包裹的“运输信息”（如内容长度、编码方式）。
响应体：实际的数据内容（网页HTML、JSON数据等）。

三、快速入门：发送第一个GET请求

1. 安装与导入：准备好“快递工具箱”

import urllib.request

2. 发送GET请求：查询天气信息

url = "https://api.weather.com/data"
request = urllib.request.Request(url)

with urllib.request.urlopen(request) as response:
    # 读取响应内容（拆开包裹）
    content = response.read().decode("utf-8")
    print(content)

关键参数说明：

url：目标地址
Request()：可自定义请求头和数据
urlopen()：核心执行函数

四、进阶用法：构建灵活的请求系统

1. 自定义请求头：伪装成浏览器

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
    "Accept-Language": "zh-CN,zh;q=0.9"
}
request = urllib.request.Request(url, headers=headers)

比喻说明：就像在快递单上注明“收件人类型”，让服务器识别为合法请求。

2. 处理POST请求：发送数据包裹

data = {
    "username": "test",
    "password": "123456"
}
data_bytes = urllib.parse.urlencode(data).encode("utf-8")
request = urllib.request.Request(url, data=data_bytes, method="POST")

注意：POST请求需要设置data参数和method="POST"

五、高级功能：应对复杂场景

1. 处理Cookie：保持会话状态

cookie_processor = urllib.request.HTTPCookieProcessor()
opener = urllib.request.build_opener(cookie_processor)

response = opener.open("https://login.example.com")

原理比喻：就像快递员记住收件人的临时地址（Cookie），方便后续快速投递。

2. 设置代理服务器：绕过网络限制

proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://proxy.example.com:8080',
    'https': 'https://proxy.example.com:8080'
})
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)

3. 处理重定向：自动跟随跳转

request = urllib.request.Request(url, method="GET")
response = urllib.request.urlopen(request)
print(response.geturl())  # 输出最终跳转后的URL

六、异常处理：构建健壮的网络程序

1. 捕获常见错误类型

try:
    response = urllib.request.urlopen("https://nonexistent-site.example")
except urllib.error.URLError as e:
    print("网络连接错误:", e.reason)
except urllib.error.HTTPError as e:
    print("HTTP错误:", e.code, e.reason)

2. 错误处理策略比喻

URLError：快递员无法找到收件地址
HTTPError：地址存在但被拒收（如404/500错误）
Timeout：超时未送达

七、实战案例：构建天气查询工具

1. 完整代码示例

import urllib.request
import urllib.error
import json

def get_weather(city):
    base_url = "https://api.weather.com"
    params = {
        "city": city,
        "unit": "c"
    }
    
    try:
        # 构建完整URL并发送GET请求
        query_str = urllib.parse.urlencode(params)
        request = urllib.request.Request(f"{base_url}?{query_str}")
        
        with urllib.request.urlopen(request, timeout=10) as response:
            if response.getcode() == 200:
                data = json.loads(response.read().decode())
                print(f"当前{city}气温：{data['temp']}℃，天气：{data['condition']}")
            else:
                print("请求失败，状态码：", response.getcode())
    except urllib.error.URLError as e:
        print("网络请求异常：", e.reason)

get_weather("Beijing")

2. 代码亮点解析

使用urlencode()自动处理参数编码
通过json模块解析响应数据
异常处理确保程序稳定性

八、性能优化与最佳实践

1. 使用上下文管理器：自动资源释放

with urllib.request.urlopen(url) as response:
    content = response.read()

2. 设置超时时间：避免无限等待

response = urllib.request.urlopen(request, timeout=5)  # 设置5秒超时

3. 爬虫伦理规范

遵守目标网站的robots.txt规则
控制请求频率（推荐使用time.sleep()）
避免对服务器造成过大负担

九、与requests库的对比：选择适合的工具

对比维度	urllib	requests
学习难度	中等（需理解底层机制）	简单（封装更友好）
功能完备性	标准库自带，无需额外安装	需第三方库，功能更强大
使用场景	需要精细控制网络细节的场景	快速开发、简单API调用
示例代码量	较多（需手动处理细节）	更简洁

选择建议：初学阶段建议从urllib开始理解底层原理，进阶后可结合requests提高开发效率。

十、常见问题解答

Q1：为什么我的请求总是返回403错误？

A：目标网站可能检测到自动化请求，建议：

添加合理的User-Agent
控制请求频率
检查是否需要登录认证

Q2：如何下载大文件时避免内存溢出？

A：使用分块读取：

response = urllib.request.urlopen(url)
with open("output.bin", "wb") as f:
    while True:
        chunk = response.read(1024)
        if not chunk:
            break
        f.write(chunk)

Q3：urllib能处理HTTPS证书验证吗？

A：通过context参数可以自定义SSL验证：

import ssl
context = ssl.create_default_context()
context.check_hostname = False
context.verify_mode = ssl.CERT_NONE
response = urllib.request.urlopen(url, context=context)

十一、结论与展望

通过本文的学习，我们掌握了Python urllib从基础到进阶的使用技巧，理解了网络请求的完整生命周期。这个模块虽然功能强大，但其设计初衷是提供底层接口，对于复杂需求建议结合requests库使用。随着API经济的蓬勃发展，掌握网络请求技术将成为开发者必备的核心能力。建议读者通过以下方式巩固知识：

完成天气查询工具的完整部署
尝试解析真实网站的HTML内容
设计带参数的POST请求案例

记住，真正的掌握来自实践。通过不断尝试和调试，您将逐渐成为网络通信领域的“快递专家”！