首页
/ 正文

Python 爬虫 – BeautifulSoup（长文解析）

更新时间: 2025-04-14 09:13:37

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

前言

在数字化时代，网络爬虫已成为数据采集的重要工具，而 Python 爬虫 – BeautifulSoup 则是这一领域的“瑞士军刀”。无论是初学者尝试理解网页结构，还是中级开发者希望高效解析 HTML 内容，BeautifulSoup 都能提供直观且灵活的解决方案。本文将从基础概念入手，通过循序渐进的案例，带您掌握如何利用 Python 和 BeautifulSoup 实现网页数据的提取与分析。

一、什么是 BeautifulSoup？

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，其核心功能是帮助开发者快速定位、筛选和提取网页中的目标数据。它通过构建树形结构（类似 DOM 树）来表示网页内容，开发者可以通过类似“寻宝”的方式，通过标签名、属性、文本内容等条件精准定位目标元素。

形象地说，BeautifulSoup 就像一位“网页翻译官”：

网页是由 HTML 代码构成的“谜题”，
BeautifulSoup 则是将这些代码转化为可理解的“地图”，
开发者 则是手持地图的“探险者”，根据线索（如标签名、类名）找到宝藏（数据）。

二、环境准备与安装

1. 安装方法

使用 pip 命令即可快速安装：

pip install beautifulsoup4

注意：

安装包名称为 beautifulsoup4，而非 beautifulsoup。
如果需要解析复杂网页，建议同时安装 lxml 或 html5lib 作为解析器（后续章节会详细说明）。

2. 核心模块导入

from bs4 import BeautifulSoup  
import requests  # 用于发送 HTTP 请求获取网页内容

三、基础用法：解析 HTML 的第一步

1. 创建 BeautifulSoup 对象

假设我们通过 requests 获取了一个网页的 HTML 内容：

response = requests.get("https://example.com")  
soup = BeautifulSoup(response.text, 'html.parser')

response.text 是原始 HTML 字符串，
'html.parser' 是 Python 内置的解析器，简单网页可直接使用。

2. 基本操作示例

（1）查找单个元素

title = soup.find("title")  # 查找第一个 <title> 标签  
print(title.string)  # 输出标签内的文本内容

（2）查找多个元素

links = soup.find_all("a")  # 查找所有 <a> 标签  
for link in links:  
    print(link.get("href"))  # 输出每个链接的 href 属性

四、高级技巧：精准定位与数据提取

1. 属性过滤与选择器

通过属性（如 class、id）可以缩小搜索范围：

article_title = soup.find("div", class_="article-title")  

content = soup.find(id="main-content")

表格对比：常见选择器语法

目标类型	语法示例	说明
标签名	`soup.find("h1")`	查找第一个 `<h1>` 标签
类名	`soup.find("div", class_="intro")`	查找 class 为 "intro" 的
ID	`soup.find(id="header")`	查找 id 为 "header" 的元素
属性值	`soup.find("a", href="/home")`	查找 href 属性等于 "/home" 的链接
组合条件	`soup.find("input", type="text")`	通过多个属性条件筛选

2. 层级遍历：树形结构的“上下文”

网页的 HTML 结构通常包含嵌套关系，例如：

<div class="container">  
    <div class="item">  
        <h3>标题1</h3>  
        <p>内容1</p>  
    </div>  
    <div class="item">  
        <h3>标题2</h3>  
        <p>内容2</p>  
    </div>  
</div>

可以通过以下方式逐层定位：

container = soup.find("div", class_="container")  

items = container.find_all("div", class_="item")  

for item in items:  
    title = item.find("h3").text  
    content = item.find("p").text  
    print(f"标题：{title}\n内容：{content}")

3. 文本提取与属性获取

提取文本：

text = element.get_text()  # 获取元素及其子元素的全部文本

提取属性值：

href = link["href"]  # 或使用 link.get("href") 避免 KeyError

五、实战案例：爬取豆瓣电影 Top 250

1. 分析目标网页

以豆瓣电影 Top 250 页面为例：

URL：https://movie.douban.com/top250
目标数据：电影名称、评分、短评等。

打开开发者工具（F12），观察 HTML 结构：

<li class="item">  
    <div class="info">  
        <div class="hd">  
            <span class="title">肖申克的救赎</span>  
        </div>  
        <div class="bd">  
            <div class="star">  
                <span class="rating_num" property="v:average">9.7</span>  
            </div>  
        </div>  
    </div>  
</li>

2. 编写爬虫代码

import requests  
from bs4 import BeautifulSoup  

def get_movie_info(url):  
    headers = {  
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."  
    }  
    response = requests.get(url, headers=headers)  
    soup = BeautifulSoup(response.text, "html.parser")  

    movies = []  
    for item in soup.find_all("div", class_="item"):  
        title = item.select_one(".title").text  # 使用 CSS 选择器  
        rating = item.select_one(".rating_num").text  
        movies.append({  
            "title": title,  
            "rating": rating  
        })  
    return movies  

for page in range(0, 2):  
    url = f"https://movie.douban.com/top250?start={page*25}"  
    print(get_movie_info(url))

关键点解析：

反爬策略：添加 User-Agent 头模拟浏览器访问。
分页处理：通过修改 start 参数实现翻页。
CSS 选择器：select_one() 和 select() 方法提供更灵活的定位方式（如 .class、#id）。

六、注意事项与最佳实践

1. 遵守网站规则

查看目标网站的 robots.txt 文件，确认爬虫权限。
避免高频请求导致服务器压力过大，可使用 time.sleep() 控制间隔。

2. 异常处理与容错

try:  
    response = requests.get(url, timeout=5)  # 设置超时时间  
    response.raise_for_status()  # 检查 HTTP 状态码  
except requests.exceptions.RequestException as e:  
    print(f"请求失败：{e}")

3. 动态网页的挑战

部分网页内容由 JavaScript 动态生成，此时需结合工具如 Selenium 或 Playwright，或分析接口请求。

结论

通过本文的讲解，您已掌握 Python 爬虫 – BeautifulSoup 的核心概念与实战技巧。从基础的标签解析到复杂网页的数据提取，BeautifulSoup 以其简洁的 API 和强大的功能，成为 Python 爬虫领域的基石工具。

对于初学者，建议从简单页面开始练习，逐步理解 HTML 结构与选择器逻辑；中级开发者可尝试结合其他库（如 Scrapy）构建复杂爬虫系统。记住，爬虫不仅是技术问题，更需尊重网络伦理与法律法规。

未来，随着网络数据规模的持续增长，掌握 Python 爬虫 – BeautifulSoup 将帮助您在数据分析、信息挖掘等领域占据先机。现在，不妨动手尝试一个自己的爬虫项目，让代码与数据共舞吧！

Python 爬虫 – BeautifulSoup（长文解析）

前言

一、什么是 BeautifulSoup？

二、环境准备与安装

1. 安装方法

2. 核心模块导入

三、基础用法：解析 HTML 的第一步

1. 创建 BeautifulSoup 对象

2. 基本操作示例

（1）查找单个元素

（2）查找多个元素

四、高级技巧：精准定位与数据提取

1. 属性过滤与选择器

表格对比：常见选择器语法

2. 层级遍历：树形结构的“上下文”

3. 文本提取与属性获取

五、实战案例：爬取豆瓣电影 Top 250

1. 分析目标网页

2. 编写爬虫代码

关键点解析：

六、注意事项与最佳实践

1. 遵守网站规则

2. 异常处理与容错

3. 动态网页的挑战

结论

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）