Pytorch采坑记录:DDP 损失和精度比 DP 差,多卡GPU比单卡GPU效果差
2023-12-21 22:49:44
结论:调大学习率或者调小多卡GPU的batch_size
转换DDP模型后模型的整体学习率和batch_size都要变。
当前配置::1GPU:学习率=0.1,batch_size=64
如果8GPU还按之前1GPU配置:8GPU:学习率=0.1,batch_size=64
那么此时对于8GPU而言,效果几乎等于::1GPU:学习率=0.1,batch_size=64 * 8=512
这种8GPU情况下,batch_size等效变大,效果就差了,参考Goyal et al
解决方法是调大学习率或者调小多卡GPU的batch_size
比如上面调大学习率改为 8GPU:学习率=0.1 * 8=0.8,batch_size=64 或 学习率=0.1 * √8 =√8 ,batch_size=64
或者调小batch_size 8GPU:学习率=0.1,batch_size=8
参考:
文章来源:https://blog.csdn.net/weixin_45667052/article/details/135139791
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!