首页
/ 正文

PyTorch torch.nn 参考手册（一文讲透）

更新时间: 2025-04-14 08:21:55

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

PyTorch torch.nn 参考手册：构建深度学习模型的基石

前言：为什么选择 PyTorch torch.nn？

在深度学习领域，PyTorch 凭借其动态计算图和直观的 API 设计，成为开发者首选的框架之一。而 torch.nn 模块作为 PyTorch 的核心组件，提供了丰富的神经网络构建工具。无论是初学者还是中级开发者，掌握 torch.nn 的使用方法，就像掌握了搭建神经网络的“乐高积木”——通过灵活组合这些模块，可以快速实现从简单线性回归到复杂卷积网络的模型开发。本文将从基础到实践，系统解析 torch.nn 的核心知识点，并通过案例演示如何高效应用。

一、理解 torch.nn 的核心概念

1.1 模块（Module）：神经网络的积木块

在 torch.nn 中，所有神经网络组件都基于 Module 类构建。模块可以是简单的层（如全连接层），也可以是包含多个子层的复杂结构（如 ResNet 模块）。想象一个乐高积木盒，每个积木块（模块）都有特定功能，通过拼接这些积木，就能搭建出完整的模型。

代码示例：定义一个简单的全连接层模块

import torch.nn as nn

class SimpleModule(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(10, 2)  # 输入维度10，输出维度2
        
    def forward(self, x):
        return self.linear(x)

1.2 前向传播（Forward）：数据流的“管道”

每个 Module 必须实现 forward 方法，它定义了输入数据如何通过网络传递。这个过程类似于工厂流水线：输入数据（原材料）经过各个模块（加工站）的处理，最终输出结果（成品）。

1.3 模型构建流程

构建模型的典型步骤如下：

定义继承自 nn.Module 的类；
在 __init__ 中初始化各层模块；
在 forward 中定义数据流路径；
实例化模型对象。

二、常用模块详解：从基础到进阶

2.1 线性层（Linear Layer）：神经网络的基本单元

功能：执行线性变换（y = xW^T + b），常用于全连接层。
参数：

in_features：输入维度；
out_features：输出维度；
bias：是否包含偏置项。

比喻：如同将数据通过一个“过滤器”，调整其维度和特征表达。

linear_layer = nn.Linear(784, 10)
input_data = torch.randn(64, 784)  # 批量大小64
output = linear_layer(input_data)  # 输出形状为 (64, 10)

2.2 卷积层（Conv2d）：图像处理的“局部感知器”

功能：提取图像局部特征，通过卷积核（kernel）滑动计算。
参数：

in_channels：输入通道数（如 RGB 图像为3）；
out_channels：输出通道数（即卷积核数量）；
kernel_size：卷积核尺寸（如 3x3）；
stride 和 padding：控制步长和边界填充。

比喻：如同用放大镜扫描图片，每次只关注局部区域，从而捕捉边缘、纹理等特征。

conv_layer = nn.Conv2d(3, 16, kernel_size=3, padding=1)
input_image = torch.randn(32, 3, 28, 28)  # 批量32，3通道，28x28像素
output = conv_layer(input_image)  # 输出形状 (32, 16, 28, 28)

2.3 激活函数（Activation Functions）：引入非线性

作用：解决线性层的局限性，使网络能学习复杂模式。
常见类型：

ReLU：max(0, x)，加速收敛且防止梯度消失；
Sigmoid：将输出压缩到 (0,1)，适合二分类；
Tanh：输出范围 (-1,1)，常用于 RNN；
Softmax：多分类时对输出进行概率归一化。

比喻：如同“开关”，决定哪些神经元被激活，从而增强网络表达能力。

relu = nn.ReLU()
output = relu(linear_output)  # 将所有负值置零

2.4 损失函数（Loss Functions）：优化方向的“指南针”

作用：衡量模型预测与真实值的差异，指导参数更新。
常用类型：

MSELoss：均方误差，适用于回归任务；
CrossEntropyLoss：结合 LogSoftmax 和 NLLLoss，适用于分类；
BCELoss：二元交叉熵，用于二分类。

criterion = nn.CrossEntropyLoss()
predictions = torch.randn(64, 10)  # 10类预测值
targets = torch.randint(0, 10, (64,))  # 真实标签
loss = criterion(predictions, targets)

三、构建第一个模型：手写数字分类

3.1 完整模型定义

import torch.nn.functional as F

class DigitClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        # 卷积层：输入通道1（灰度图），输出通道16，核3x3
        self.conv1 = nn.Conv2d(1, 16, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1)
        # 全连接层：输入维度32*7*7（假设池化后尺寸），输出10类
        self.fc = nn.Linear(32*7*7, 10)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, 2)  # 池化层，尺寸减半
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, 2)
        # 展平处理
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return F.log_softmax(x, dim=1)  # 输出概率分布

3.2 训练流程示例

model = DigitClassifier()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

for epoch in range(10):
    for images, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(images)
        loss = F.nll_loss(outputs, labels)
        loss.backward()
        optimizer.step()

四、高级技巧与优化

4.1 自定义模块（Custom Module）

当需要实现特殊功能时，可通过继承 nn.Module 自定义模块。例如，添加注意力机制：

class AttentionModule(nn.Module):
    def __init__(self, in_channels):
        super().__init__()
        self.conv = nn.Conv2d(in_channels, 1, kernel_size=1)
        
    def forward(self, x):
        attention_map = torch.sigmoid(self.conv(x))
        return x * attention_map

4.2 参数管理：冻结与共享

冻结参数：防止部分层在训练中更新：

for param in model.conv1.parameters():
    param.requires_grad = False

共享参数：让不同层共享同一组参数：

layer1 = nn.Linear(10, 20)
layer2 = nn.Linear(10, 20)
layer2.weight = layer1.weight  # 共享权重

4.3 模型保存与加载

torch.save(model.state_dict(), "model.pth")

model = DigitClassifier()
model.load_state_dict(torch.load("model.pth"))
model.eval()  # 切换为推理模式

五、调试与常见问题

5.1 维度不匹配问题

原因：层输入输出维度不一致。
解决：检查每层的 in_features 和 out_features，或使用 print(x.shape) 调试。

5.2 梯度消失/爆炸

解决：使用适当的初始化方法（如 nn.init.xavier_uniform）或激活函数（如 ReLU），并调整学习率。

结论：掌握 torch.nn 的进阶之路

通过本文，读者应能理解 torch.nn 的核心模块与构建逻辑。从简单的线性层到复杂的卷积网络，开发者可通过组合这些“积木”构建多样化模型。建议读者通过实践逐步深入，例如尝试以下进阶任务：

将上述分类模型扩展为 ResNet 结构；
使用 nn.Sequential 简化模型定义；
实现自定义损失函数或优化器。

记住，PyTorch torch.nn 参考手册 是深度学习的基石，而持续实践与探索才是掌握它的关键。希望本文能助你在神经网络的海洋中，找到属于自己的“积木组合”！

PyTorch torch.nn 参考手册（一文讲透）

PyTorch torch.nn 参考手册：构建深度学习模型的基石

前言：为什么选择 PyTorch torch.nn？

一、理解 torch.nn 的核心概念

1.1 模块（Module）：神经网络的积木块

1.2 前向传播（Forward）：数据流的“管道”

1.3 模型构建流程

二、常用模块详解：从基础到进阶

2.1 线性层（Linear Layer）：神经网络的基本单元

2.2 卷积层（Conv2d）：图像处理的“局部感知器”

2.3 激活函数（Activation Functions）：引入非线性

2.4 损失函数（Loss Functions）：优化方向的“指南针”

三、构建第一个模型：手写数字分类

3.1 完整模型定义

3.2 训练流程示例

四、高级技巧与优化

4.1 自定义模块（Custom Module）

4.2 参数管理：冻结与共享

4.3 模型保存与加载

五、调试与常见问题

5.1 维度不匹配问题

5.2 梯度消失/爆炸

结论：掌握 torch.nn 的进阶之路

最新发布

CSS 网格布局（长文解析）

CSS 网格容器（保姆级教程）

CSS 网格元素（长文讲解）

CSS gap 属性（保姆级教程）

CSS row-gap 属性（千字长文）

CSS grid-area 属性（一文讲透）

CSS grid-auto-columns 属性（一文讲透）

CSS grid-auto-rows 属性（一文讲透）

CSS grid-auto-flow 属性（保姆级教程）

CSS grid-column 属性（长文解析）