首页
/ 正文

Python Scrapy 库（长文讲解）

更新时间: 2025-04-14 09:10:57

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

在互联网信息爆炸的时代，数据采集已成为编程开发中的重要技能之一。Python Scrapy库作为一款专为爬虫设计的开源框架，凭借其高效性、灵活性和丰富的功能，成为开发者实现数据抓取的首选工具。无论是初学者还是有一定经验的开发者，Scrapy都能以模块化的设计和直观的语法，帮助用户快速构建稳定可靠的网络爬虫。本文将从零开始，系统性地讲解Scrapy的核心概念、工作原理及实战应用，帮助读者掌握这一强大工具的使用技巧。

Python Scrapy库是一个基于Twisted异步网络库构建的爬虫框架，其设计目标是为开发者提供一套完整的解决方案，用于高效抓取网页数据并进行结构化处理。与传统的手动编写请求和解析代码的方式相比，Scrapy通过组件化设计和内置的优化机制，显著降低了爬虫开发的复杂度。

Scrapy的核心优势：

模块化架构：将爬虫生命周期拆分为引擎、调度器、下载器等独立组件，便于扩展和调试。
高性能支持：内置异步处理和并发控制，可快速处理大规模数据抓取任务。
强大的解析能力：支持XPath、CSS选择器及自定义解析规则，灵活提取目标数据。
丰富的中间件与扩展：提供代理IP、反爬策略、数据持久化等常见功能的开箱即用支持。

安装Scrapy

使用pip命令即可快速安装Scrapy库：

pip install scrapy

创建第一个Scrapy项目

通过以下命令生成项目模板：

scrapy startproject my_crawler

执行后，Scrapy会自动生成包含以下目录的项目结构：

my_crawler/：项目根目录
my_crawler/spiders/：存放爬虫脚本的目录
my_crawler/items.py：定义数据存储结构的文件
my_crawler/pipelines.py：数据处理逻辑的配置文件
my_crawler/settings.py：全局配置文件

Scrapy的运行依赖于多个核心组件的协同合作。以下通过一个比喻来理解其工作原理：

Scrapy如同一只智能蜘蛛，其“大脑”（引擎）协调各部分工作：

调度器（Scheduler）：像交通指挥中心，负责管理待爬取的URL列表。

下载器（Downloader）：像蜘蛛的“腿”，负责实际抓取网页内容。

解析器（Spider）：像蜘蛛的“眼睛”，识别并提取有价值的数据。

引擎（Engine）：像指挥中枢，协调所有组件的运作流程。

Scrapy的工作流程图：

开发者定义爬虫逻辑（Spider），指定起始URL和解析规则。
引擎向调度器请求初始URL。
调度器将URL提交给下载器获取网页内容。
下载器返回响应后，引擎将数据传递给Spider进行解析。
Spider通过XPath或CSS选择器提取数据，并生成新的请求或Item对象。
Item数据通过管道（Pipeline）进行清洗、验证或存储。

编写第一个Spider

在项目目录下的spiders/文件夹中，创建一个名为example_spider.py的文件：

import scrapy  
from my_crawler.items import ExampleItem  

class ExampleSpider(scrapy.Spider):  
    name = "example_spider"  
    start_urls = [  
        "https://example.com/page1",  
        "https://example.com/page2",  
    ]  

    def parse(self, response):  
        for item in response.css("div.product"):  
            example_item = ExampleItem()  
            example_item["title"] = item.css("h2::text").get()  
            example_item["price"] = item.css("span.price::text").get()  
            yield example_item

代码解析：

name：必须定义的爬虫唯一标识符。
start_urls：爬虫的初始请求地址列表。
parse：核心回调函数，接收response参数并执行数据提取逻辑。
yield：通过生成器返回Item对象，触发后续管道处理流程。

数据存储与Item设计

在items.py中定义数据结构：

import scrapy  

class ExampleItem(scrapy.Item):  
    title = scrapy.Field()  
    price = scrapy.Field()

此结构用于规范数据字段，便于后续统一处理。

实战案例：爬取豆瓣电影Top250

步骤1：分析目标网页结构

访问豆瓣电影Top250页面（https://movie.douban.com/top250），使用浏览器开发者工具观察数据分布：

每个电影条目包裹在div.item标签内。
标题位于div.info > div.hd > a > span.title。
评分位于span.rating_num。

步骤2：编写爬虫代码

在spiders/目录下创建douban_movies.py：

import scrapy  
from my_crawler.items import MovieItem  

class DoubanMovieSpider(scrapy.Spider):  
    name = "douban_movies"  
    start_urls = ["https://movie.douban.com/top250"]  

    def parse(self, response):  
        for movie in response.css("div.item"):  
            item = MovieItem()  
            item["title"] = movie.css("div.info > div.hd > a > span.title::text").get()  
            item["rating"] = movie.css("span.rating_num::text").get()  
            # 跟随子页面链接，获取更多信息  
            detail_url = movie.css("div.info > div.hd > a::attr(href)").get()  
            yield response.follow(detail_url, self.parse_detail, meta={"item": item})  

    def parse_detail(self, response):  
        item = response.meta["item"]  
        item["director"] = response.css("span.attrs::text").get()  
        yield item

步骤3：处理数据持久化

在pipelines.py中添加存储逻辑：

class DoubanPipeline:  
    def open_spider(self, spider):  
        self.file = open("movies.json", "w", encoding="utf-8")  

    def close_spider(self, spider):  
        self.file.close()  

    def process_item(self, item, spider):  
        self.file.write(json.dumps(dict(item), ensure_ascii=False) + "\n")  
        return item

在settings.py中启用Pipeline：

ITEM_PIPELINES = {  
    "my_crawler.pipelines.DoubanPipeline": 300,  
}

调试与优化技巧

1. 使用Scrapy Shell交互式调试

在命令行中输入：

scrapy shell "https://example.com"

可直接测试XPath/CSS选择器，例如：

response.css("h1::text").get()

2. 设置请求延迟与代理IP

在settings.py中添加：

DOWNLOAD_DELAY = 3  
DOWNLOADER_MIDDLEWARES = {  
    "my_crawler.middlewares.ProxyMiddleware": 543,  
}

3. 日志与输出控制

通过命令行参数控制输出：

scrapy crawl douban_movies -o movies.csv -s LOG_LEVEL=INFO

中间件（Middleware）的使用

中间件是Scrapy中实现功能扩展的重要机制。例如，可通过自定义User-Agent中间件避免被网站封锁：

class RandomUserAgentMiddleware:  
    def process_request(self, request, spider):  
        ua = random.choice(USER_AGENT_LIST)  
        request.headers["User-Agent"] = ua

分布式爬虫与Scrapy-Redis

对于大规模数据采集，可结合Scrapy-Redis实现分布式部署：

安装依赖：pip install scrapy-redis
修改settings.py配置：

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  
SCHEDULER = "scrapy_redis.scheduler.Scheduler"  
REDIS_URL = "redis://user:password@localhost:6379/0"

遵循的开发规范

遵守网站robots.txt规则：在settings.py中设置ROBOTSTXT_OBEY = True。
合理设置请求频率：根据目标网站的承受能力调整DOWNLOAD_DELAY。
数据清洗前置化：在Item Pipeline中进行数据验证和格式转换。

通过本文的讲解，读者已掌握了Scrapy从基础到进阶的使用方法，并通过实战案例理解了其核心价值。Scrapy库凭借其模块化设计和丰富的功能，能够帮助开发者高效完成数据抓取任务。对于初学者而言，建议从简单项目入手，逐步掌握解析逻辑和调试技巧；中级开发者则可深入探索分布式爬虫和反爬策略应对方案。

在数字化转型加速的今天，掌握Scrapy库不仅能提升个人技术竞争力，更能为数据驱动的决策提供有力支持。建议读者持续关注Scrapy社区更新，结合实际需求不断优化自己的爬虫系统，从而在数据采集领域游刃有余。

Python Scrapy 库（长文讲解）

安装Scrapy

创建第一个Scrapy项目

编写第一个Spider

数据存储与Item设计

实战案例：爬取豆瓣电影Top250

步骤1：分析目标网页结构

步骤2：编写爬虫代码

步骤3：处理数据持久化

调试与优化技巧

1. 使用Scrapy Shell交互式调试

2. 设置请求延迟与代理IP

3. 日志与输出控制

中间件（Middleware）的使用

分布式爬虫与Scrapy-Redis

遵循的开发规范

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）