[23] Self-conditioned Image Generation via Generating Representations

2023-12-14 20:28:28

[paper | code]

  • 用生成对象本身作为控制信号,实现无条件图像生成。
  • 训练阶段。Step1:用预训练模型(例如:Moco v3)提取生成对象的特征编码;Step2:基于特征编码,训练一个扩散模型RDM;Step3:基于特征编码,和大量图片,训练一个图像生成器(例如:MAGE);
  • 推理阶段。从RDM从采样图像特征作为控制信号,生成图片;或者生成参考图像的特征编码作为控制信号,生成图片。
  • 优点:无需人类标注标签,实现接近使用标签的生成模型的能力。

目录

摘要

引言

方法

实验结果

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results


摘要

  • 提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG);
  • RCG的控制信号来自自监督表征分布,该分布是预训练编码器对图片处理得到;
  • 生成过程中,RCG使用representation diffusion model (RDM) 从该分布中采样,作为控制条件生成图像;
  • 在ImageNet 256 x 256分辨率下测试,RCG去得了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4的成绩,显著改善无条件图像生成方法,缩小了与有条件图像生成方法的差距。

引言

  • 使用图片本身特征作为控制信号的优点:1)更直观:艺术家是先形成抽象概念,再形成作品;2)更多数据:无条件图像生成使得可用的训练数据变多;3)无需标注:适合分子设计和药物探索。
  • 本文首先使用自监督图片编码器(例如:Moco v3),计算图像特征;其次,用Representation Diffusion Model (RDM) 学习图像特征分布。这样做的优点在于:1)RDM可以捕捉图像特征分布的多样性;2)图像特征维度较低,降低计算开销。
  • 生成过程:RDM采样图像特征分布作为控制信号,pixel generator生成图像。

方法

RCG包含3个关键部分:1)预训练自监督图像编码器;2)图像表征生成器;3)图像生成器。

  • 图像编码器:本文使用自监督对比学习方法Moco v3作为图像编码器。本文使用映射头(projection head)后的256维表征,每个表征基于其均值和方差归一化。
  • 图像表征生成器:RDM如下图所示,每个块包含输入层(input layer)、时间编码映射层(timestep embedding projection layer)和输出层(output layer)。每层包含LayerNorm、SiLU和线性层。图像表征生成器通过两个参数控制:块数量N和中间特征维度C。

如下图所示,RDM遵循DDIM做训练和推理。图片特征z_0,添加噪声得到z_t=\sqrt{\alpha_t}z_0 + \sqrt{1-\alpha_t}\epsilon;RDM的训练目标是预测去噪结果z_0

  • 图像生成器:如下图所示,可以使用任意图像生成器,唯一修改是把原有的控制条件,例如文本或分类标签,替换为self-supervised learning (SSL) 表征。训练时,输入masked image,输出完整图像;推理时输入为全部mak掉的图片,输出完整图像。训练和推理时都用图像编码作为控制信号。

Classifier-free Guidance:RCG遵循Muse实现classifier-free guidance。训练时,MAGE有10%的概率,在不受SSL表征控制下生成。推理时,MAGE预测不受SSL表征控制的输出l_u和受表征控制的l_c,最终预测为l_g=l_c+\tau(l_c-l_u)

实验结果

生成了50K图像做测试

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results

文章来源:https://blog.csdn.net/qq_40731332/article/details/134925581
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。