AlexNet 阅读笔记
“ImageNet Classification with Deep Convolutional Neural Networks” (Krizhevsky 等, 2012, p. 1)
使用深度卷积神经网络进行 ImageNet 分类
3公式,26个引用,4张图片,2个简单表格
Abstract
我们训练了一个大型深度卷积神经网络,将 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像分类为 1000 个不同的类别。
在测试数据上,我们实现了 37.5% 和 17.0% 的 top-1 和 top-5 错误率,这比之前的最先进水平要好得多。
该神经网络拥有 6000 万个参数和 650,000 个神经元,由五个卷积层(其中一些后面是最大池层)和三个全连接层(最终为 1000 路 softmax)组成。
为了加快训练速度,我们使用非饱和神经元和非常高效的 GPU 实现卷积运算。为了减少全连接层中的过度拟合,我们采用了最近开发的称为“dropout”的正则化方法,事实证明该方法非常有效。
我们还在 ILSVRC-2012 竞赛中输入了该模型的一个变体,并取得了 15.3% 的获胜前 5 名测试错误率,而第二名的测试错误率为 26.2%。
1. Introduction
1.当前物体识别充分使用机器学习的方法,为了提高性能需要更大、质量更高的数据集从而学习更强大的模型。(列举最近的数据集)。
2.模型需要先验知识——引出CNN卷积神经网络。
3.然而训练是昂贵的,好在现在有GPU和足够的有标签高质量数据。
4.本文的具体贡献
5.最后,神经网络大小受限于GPU内存和时间,当前是在两个GTX580 GPU上训练了5-6天的实验结果,只要GPU更快数据集更大,实验结果就会改善!
2. The Dataset
介绍 ImageNet,介绍大规模视觉挑战赛ILSVRC
作者在ILSVRC-2010上执行了大部分实验,在ImageNet上通常使用top-1和top-5两个错误率。
ImageNet的数据图像分辨率不一样,作者将它剪裁成256*256的固定大小,除此之外没有使用任何其他处理方式。
3. The Architecture
我们的网络架构如图 2 所示。它包含八个学习层,五个卷积层和三个全连接层。下面,我们描述了我们网络架构的一些新颖或不寻常的特征。第 3.1-3.4 节根据我们对其重要性的估计进行排序,最重要的排在最前面。
3.1 ReLU Nonlinearity
3.2 Training on Multiple GPUs
3.3 3.4
3.5 Overall Architecture
4. Reducing Overfitting
我们的神经网络架构有 6000 万个参数。尽管 ILSVRC 的 1000 个类别使每个训练示例对从图像到标签的映射施加 10 位约束,但事实证明,这不足以在不出现严重过拟合的情况下学习如此多的参数。下面,我们描述了对抗过度拟合的两种主要方法。
4.1 数据增强
“4.2 Dropout” 辍学
5. Details of learning
一些细节:两个GTX 580训练5-6天,120万张图片90个周期训练,批量大小128,随机梯度下降,动量0.9,权重衰减0.0005,标准差0.01,用0初始化。学习率初始化为0.01。
我们发现少量权重衰减对于模型学习很重要!
(这话跟我说的一样!)
6. Results
表1总结了我们在ILSVRC-2010上的结果。
我们还在ILSVRC-2012竞赛中使用了我们的模型,具体结果在表2给出。
最后,我们还报告了ImageNet2009年秋季版本的错误率。
6.1定性评价
7. Discussion
大型深度神经网络用于监督学习能够取得破纪录的结果。如果删除单个卷积层top-1性能会损失大约2%。深度很重要!
我们未使用无监督与训练,我们希望未来在视频上使用深度卷积网络,因为时间也能提供很多信息。(吹牛,预测未来)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!