DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents
2023-12-24 23:35:11
DALL-E 2
方法
- 上图中,虚线的上半部分是CLIP的训练过程,虚线的下半部分描述的DALL-E 2的训练过程。
CLIP训练
- 在训练时,将文本以及对应的图像分别输入到CLIP的文本编码器和图像编码器,然后得到输出的文本特征和图像特征,这两个特征就是一个正样本,该文本特征与其他图像生成的图像特征就是负样本,通过对比学习,训练文本编码器和图像编码器,将图像和文本合并为一个多模态的特征空间。CLIP模型训练结束,文本编码器和图像编码器就的参数就被冻结。在DALL-E 2的训练过程中,CLIP模型的参数处于冻结状态,不进行
文章来源:https://blog.csdn.net/u013308709/article/details/135168063
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!