Restormer技术点小结

2023-12-13 20:57:53

1. 解决cnn的不足：

1）感受野有限

2）输入尺寸固定

2. 解决transform的不足：

1）计算复杂度随着空间分辨率的增加而二次增长

3. 优势结构：MDTA(Multi-Dconv Head Transposed Attention)和GDFN( Gated-Dconv Feed-Forward Network)

1）MDTA(Multi-Dconv Head Transposed Attention：多头注意力机制

~计算通道上的自注意力而不是空间上，即计算跨通道的交叉协方差来生成隐式地编码全局上下文的注意力图

~计算自注意力map之间，使用depth-wise卷积操作生成Q、K、V，这样可以强调局部信息

?2）GDFN( Gated-Dconv Feed-Forward Network)

GDFN 控制各层中的通道中的信息流，从而使得每层都专注于与其他层之间互补的精细细节。既与MDTA相比，GDFN 更专注于使用上下文信息丰富特

~门控制

~GELU 非线性激活：GELU对于输入乘以一个0,1组成的mask，而该mask的生成则是依靠伯努利分布的随机输入，可以看作 dropout的思想和relu的结合，增加鲁棒性

4.?渐进式训练方法

在早期阶段，网络在较小的图像块上进行训练，在后期的训练阶段，网络在逐渐增大的图像块上进行训练，所以会随着patch大小的增加而减少batch大小，以保持相同的训练时间。

? ? 最后，根据实际训练情况来看，restormer，尤其是小型化的restormer，未必比同大小的cnn更有优势。

文章来源:https://blog.csdn.net/m0_37324740/article/details/134980101
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！