卷积 (Convolution)

📌 核心定义 (What)

一句话定义：卷积是一种数学运算，通过滑动窗口（卷积核）在输入上提取局部特征。在 CNN 中，卷积核的参数通过训练学习，能自动发现边缘、纹理、形状等特征。

核心概念：

卷积核 (Kernel/Filter): 一个小矩阵（如 3×3），包含可学习的权重。
步幅 (Stride): 卷积核每次移动的距离。
填充 (Padding): 在输入边缘补零，控制输出尺寸。
特征图 (Feature Map): 卷积操作的输出。

🎨 交互演示：卷积过程 (Interactive)

选择不同的卷积核，观察它如何在图像上滑动并提取特征。

🔲卷积可视化

检测水平边缘 (Sobel Y)

输入 (5×5)

100

200

100

200

255

200

100

200

100

卷积核 (3×3)

-1

输出 (3×3)

255

📐 输出尺寸公式:

O = floor((I - K + 2P) / S) + 1

本例: I=5, K=3, P=0, S=1 → O = (5-3+0)/1 + 1 = 3

💡 将鼠标悬停在输入矩阵左上角 3×3 区域内查看卷积计算过程

🏠 生活类比 (Analogy)

🔍 “用放大镜看报纸”

想象你用一个小放大镜逐格查看一张大图片：

放大镜 = 卷积核（决定你关注什么特征）
移动放大镜 = 卷积操作（逐像素滑动）
记录看到的内容 = 输出特征图

不同的”放大镜”（卷积核）能发现不同的东西：

边缘检测核：找到图片中的轮廓
模糊核：让图片变模糊
锐化核：增强细节

🎬 视频详解 (Video)

📊 数学原理 (Math)

1. 2D 卷积公式

2D 卷积

(I * K)[i,j] = \sum_{m}\sum_{n} I[i+m, j+n] \cdot K[m, n]

$I$ : 输入图像
$K$ : 卷积核 (如 3×3)
$*$ : 卷积运算符
输出每个位置是输入局部区域与核的加权和

2. 输出尺寸计算

输出尺寸公式

O = \frac{I - K + 2P}{S} + 1

$I$ : 输入尺寸
$K$ : 卷积核尺寸
$P$ : 填充 (Padding)
$S$ : 步幅 (Stride)
例: 输入 32×32, 核 3×3, P=1, S=1 → 输出 32×32

3. 常见卷积核

名称	核矩阵	作用
边缘检测 (Sobel X)	`[[-1,0,1],[-2,0,2],[-1,0,1]]`	检测垂直边缘
边缘检测 (Sobel Y)	`[[-1,-2,-1],[0,0,0],[1,2,1]]`	检测水平边缘
高斯模糊	`[[1,2,1],[2,4,2],[1,2,1]]/16`	平滑图像
锐化	`[[0,-1,0],[-1,5,-1],[0,-1,0]]`	增强边缘

import torch
import torch.nn as nn

# 定义卷积层
conv = nn.Conv2d(
    in_channels=3,    # 输入通道 (RGB=3)
    out_channels=64,  # 输出通道 (64个卷积核)
    kernel_size=3,    # 卷积核大小 3×3
    stride=1,         # 步幅
    padding=1         # 填充 (保持尺寸不变)
)

# 输入: [Batch, Channel, Height, Width]
x = torch.randn(1, 3, 224, 224)
output = conv(x)
print(output.shape)  # [1, 64, 224, 224]

# 查看卷积核权重
print(conv.weight.shape)  # [64, 3, 3, 3]
# 64个输出通道，每个通道有3个3×3的核(对应RGB)

import numpy as np
from scipy.signal import convolve2d

# 输入图像 (灰度)
image = np.random.rand(8, 8)

# Sobel 边缘检测核
sobel_x = np.array([
    [-1, 0, 1],
    [-2, 0, 2],
    [-1, 0, 1]
])

# 执行卷积
edges = convolve2d(image, sobel_x, mode='same')
print(f"输入: {image.shape}, 输出: {edges.shape}")

# 手动实现 2D 卷积
def conv2d_manual(image, kernel, stride=1, padding=0):
    # 添加填充
    if padding > 0:
        image = np.pad(image, padding, mode='constant')

    h, w = image.shape
    kh, kw = kernel.shape
    oh = (h - kh) // stride + 1
    ow = (w - kw) // stride + 1

    output = np.zeros((oh, ow))
    for i in range(oh):
        for j in range(ow):
            region = image[i*stride:i*stride+kh, j*stride:j*stride+kw]
            output[i, j] = np.sum(region * kernel)

    return output

⚠️ 常见误区 (Pitfalls)

🔗 相关概念

神经网络 - CNN 的基础
池化 (Pooling) - 卷积后的下采样
线性代数 - 矩阵运算基础
反向传播 - 卷积层的梯度计算

📚 延伸资源

CNN Explainer

交互式 CNN 可视化

访问

CS231n CNN

斯坦福 CNN 课程笔记

阅读