41、BatchNorm - 什么是批归一化

2023-12-17 11:32:17

在 CNN 网络中有一个很重要的技术，叫作批归一化（bn, BatchNorm )。

归一化层一般位于卷积的后面，学术或者工程上，一般习惯将卷积+批归一化+激活统一成一个小的网络结构，比如口语化上称为conv+bn+relu。

这是因为基本上卷积后面肯定会有批归一化，而后面肯定会接激活函数 relu。

为了更贴近实际中的叫法，之后的文章，称批归一化统一称为 BN, 称卷积统一称为 conv, 称池化统一称为pooling。

为什么要有 BN 这个东西

归一化我们都好理解，就是计算出一堆数据的平均值和方差，然后通过减掉均值除以方差的办法，或者其他办法，将所有数据归一化到[0,1]的区间。

那为什么神经网络中也要有归一化呢?

这主要是由于在实际训练过程中，一般都采用多批次进行训练，而多个批次的数据分布并不是完全一致的。

比如我有 1 万张图片用于训练，受限于计算资源或者其他方面的限制，每一次训练我不可能把1万张图片全部喂给神经网络。

大部分的做法是，将1万张训练图片分为10份，每次喂给神经网络1000张图片来进行训练，这1000张图片称为mini-batch，也就是一小批训练数据。

那么问题就来了，我们怎么保证分成的这10份图片训练集中的数据具有相同的分布呢？

举个例子，我们粗浅的用灰度图来表示图片的分布：如果图片大部分为黑色，代表图片数据贴近于0，如果图片大部分为白色，则代表图片数据的分布贴近于 255。关于灰度图的描述可以查看最开始灰度图的章节。

继续假设，第一份中的图片大部分都是黑色系的图片，第二份

文章来源:https://blog.csdn.net/dongtuoc/article/details/135042349
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！