CNN网络结构的发展——看懂这一篇就够了（1）

数据派THU | 2023-08-04 07:26:17 阅读：1026

CNN的全称是"Convolutional Neural Network"(卷积神经网络)。而神经网络是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）结构和功能的数学模型或计算模型。

作者丨zzq@知乎链接丨https://zhuanlan.zhihu.com/p/68411179
一、CNN基本部件介绍

1. 局部感受野

在图像中局部像素之间的联系较为紧密，而距离较远的像素联系相对较弱。因此，其实每个神经元没必要对图像全局进行感知，只需要感知局部信息，然后在更高层局部信息综合起来即可得到全局信息。卷积操作即是局部感受野的实现，并且卷积操作因为能够权值共享，所以也减少了参数量。

2. 池化

池化是将输入图像进行缩小，减少像素信息，只保留重要信息，主要是为了减少计算量。主要包括最大池化和均值池化。

3. 激活函数

激活函数的用是用来加入非线性。常见的激活函数有sigmod, tanh, relu，前两者常用在全连接层，relu常见于卷积层。

4.全连接层

全连接层在整个卷积神经网络中起分类器的作用。在全连接层之前需要将之前的输出展平。

二、经典网络结构

1. LeNet5

由两个卷积层，两个池化层，两个全连接层组成。卷积核都是5×5，stride=1，池化层使用maxpooling。

2. AlexNet

模型共八层（不算input层），包含五个卷积层、三个全连接层。最后一层使用softmax做分类输出

AlexNet使用了ReLU做激活函数；防止过拟合使用dropout和数据增强；双GPU实现；使用LRN。

3. VGG

全部使用3×3卷积核的堆叠，来模拟更大的感受野，并且网络层数更深。VGG有五段卷积，每段卷积后接一层最大池化。卷积核数目逐渐增加。

总结：LRN作用不大；越深的网络效果越好；1×1的卷积也很有效但是没有3×3好。

4. GoogLeNet(inception v1)

从VGG中我们了解到，网络层数越深效果越好。但是随着模型越深参数越来越多，这就导致网络比较容易过拟合，需要提供更多的训练数据；另外，复杂的网络意味更多的计算量，更大的模型存储，需要更多的资源，且速度不够快。GoogLeNet就是从减少参数的角度来设计网络结构的。

GoogLeNet通过增加网络宽度的方式来增加网络复杂度，让网络可以自己去应该如何选择卷积核。这种设计减少了参数，同时提高了网络对多种尺度的适应性。使用了1×1卷积可以使网络在不增加参数的情况下增加网络复杂度。

Inception-v2

在v1的基础上加入batch normalization技术，在tensorflow中，使用BN在激活函数之前效果更好；将5×5卷积替换成两个连续的3×3卷积，使网络更深，参数更少

Inception-v3

核心思想是将卷积核分解成更小的卷积，如将7×7分解成1×7和7×1两个卷积核，使网络参数减少，深度加深

Inception-v4结构

引入了ResNet，使训练加速，性能提升。但是当滤波器的数目过大（>1000）时，训练很不稳定，可以加入activate scaling因子来缓解

5. Xception

在Inception-v3的基础上提出，基本思想是通道分离式卷积，但是又有区别。模型参数稍微减少，但是精度更高。Xception先做1×1卷积再做3×3卷积，即先将通道合并，再进行空间卷积。depthwise正好相反，先进行空间3×3卷积，再进行通道1×1卷积。核心思想是遵循一个假设：卷积的时候要将通道的卷积与空间的卷积进行分离。而MobileNet-v1用的就是depthwise的顺序，并且加了BN和ReLU。Xception的参数量与Inception-v3相差不大，其增加了网络宽度，旨在提升网络准确率，而MobileNet-v1旨在减少网络参数，提高效率。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。