知识蒸馏:channel wise知识蒸馏CWD
2023-12-19 05:47:27
论文:https://arxiv.org/pdf/2011.13256.pdf
1. 摘要
知识蒸馏
用于训练紧凑型(轻量)模型被证明是一种简单、高效
的方法,轻量的学生网络通过教师网络的知识迁移来实现监督学习
。大部分的KD方法都是通过algin学生网络和教师网络的归一化的feature map, 最小化feature map上的激活值的差异。与以往的方法不同,本文提出了将每个通道的特征图归一化来得到软化的概率图
。通过简单地最小化
两个网络的通道概率图之间的Kullback-Leibler (KL)
散度,蒸馏过程更关注每个通道最显著的区域,这对于密集预测任务很有价值。本文对几个密集预测任务进行了实验,包括语义分割
和目标检测
。 实验表明,本文提出的方法比现有的蒸馏方法性能好得多,并且在训练过程中需要更少的计算代价。 特别地,在COCO数据集上对MAP中的RetinaNet
检测器(resnet50主干)获得了3.4%
的性能提升,在Cityscapes
数据集上, 针对mIoU指标,PSPNET(resnet-18 backbone)获得5.81%的性能提升。
文章来源:https://blog.csdn.net/weixin_38346042/article/details/135005359
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!