Pruning Papers

2024-01-03 14:33:37

[ICML 2020] Rigging the Lottery: Making All Tickets Winners

整个训练过程中mask是动态的，有drop和grow两步，drop是根据权重绝对值的大小丢弃，grow是根据剩下激活的权重中梯度绝对值生长
没有先prune再finetune/retrain的两阶段过程
Layer-wise sparsity
- Uniform： $s^l=S$
- Erdos-Renyi： $1-(n^{l-1}+n^l)/(n^{l-1}*n^l)$
- Erdos-Renyi-Kernel（ERK）： $1-(n^{l-1}+n^l+w^l+h^l)/(n^{l-1}*n^l*w^l*h^l)$
- 每层的参数量越大，可以分配更大的sparsity，ERK的实验效果最好

[WACV 2022] Hessian-Aware Pruning and Optimal Neural Implant

用Hessian trace（二阶导）作为剪枝敏感度的指标，敏感度高的部分保留，敏感度低的部分被剪枝
Prune之后finetune

[ICLR 2019] SNIP: Single-shot Network Pruning based on Connection Sensitivity

在模型初始化时根据连接敏感度一次性剪枝，然后进行常规的训练

[ICLR 2021] Progressive Skeletonization: Trimming more fat from a network at initialization

在SNIP的基础上，提出progresssive找mask
提出FORCE，前面所剪枝掉的权重可以在后面被激活
这个过程是没有训练（权重更新）的，只是在算被mask过后的权重的梯度，然后topk

在这里插入图片描述

文章来源:https://blog.csdn.net/qq_16763983/article/details/135358794
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！