【ICCV 2022】Masked Autoencoders Are Scalable Vision Learners

2023-12-17 12:26:07

何凯明一作文章：https://arxiv.org/abs/2111.06377

本文的出发点：是BERT的掩码自编码机制：移除一部分数据并对移除的内容进行学习。mask自编码源于CV但盛于NLP，恺明对此提出了疑问：是什么导致了掩码自编码在视觉与语言之间的差异？尝试从不同角度进行解释并由此引申出了本文的MAE。

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像的随机块进行mask并对遗失像素进行重建。它基于以下两个核心设计：

我们设计了一种非对称编解码架构，其中解码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；
我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

上述两种设计促使我们可以更高效的训练大模型：我们加速训练达3x甚至更多，同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度?。下游任务的迁移取得了优于监督训练的性能，证实了所提方案的可扩展能力。

文献阅读：MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis-CSDN博客

文章来源:https://blog.csdn.net/weixin_43135178/article/details/135042484
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！