奥飞寺贾浩南
量子比特报告| 公众号
输出单一,参数调整麻烦,损失函数无法收敛,稳定性差。
苏黎世理工大学的一位博士列举了各种 GAN 的“罪名”,并表示 GAN 未来将被抛弃。
当你说“已弃用”时,你当然已经有了B计划。
博士和他的团队开发了一种新的标准化流(Flow)模型,可以弥补 GAN 在生成任务中的各种缺点。
该研究成果《》也被ECCV 2020收录。
那么它的威力到底有多大呢? 它能在多大程度上替代GAN?
“这么多,很好”
从可见的生成任务结果可以看出,它至少在两个方面超越了GAN。 一是生成结果的多样性,二是提高图像分辨率后的保真度。
输入低分辨率马赛克图像,比较基于GAN的模型和生成的结果:
在分辨率提高4倍的任务中,生成的结果比基于GAN的结果更清晰、更真实。
对于许多 GAN 变体来说,存在一些不可避免的缺陷。 例如,在图像恢复生成任务中,随机向量被生成器广泛忽略。 因此,大多数基于 GAN 的图像到图像映射都是单确定性的。
GAN训练中的损失函数包括生成器伪造图像,但判别器无法知道哪些图像是假的。
另一方面,鉴别器负责确定图像是来自生成器还是来自训练集。
这两个相互冲突的目标导致学习参数不断漂移,导致输出结果出现不同程度的失真。
那么基于标准化流程的如何弥补这些缺陷呢?
随机向量不会被忽略
针对GAN忽略输入随机向量,导致输出单一的问题,传统的GAN策略是在模型中加入控制信号,放弃重构损失函数。
△以16倍分辨率放大输出结果
在训练过程中,算法的核心——标准化流模型——将高分辨率图像转换为高斯分布。 图像条件标准化流的情况并非如此。
为了避免GAN的判别器损失通常会导致模式崩溃,使用单一损失进行训练,并对随机输出进行内采样。
该模型稳定,超参数少,参数易于调整。
条件 GAN 需要仔细调整超参数。 在许多 GAN 变体模型中,总损失由多个损失的加权和组成。
所以减少失真需要付出很大的努力来调整不同的损失函数权重。
此外,生成器和判别器必须保持平衡,才能使训练过程稳定。
在图像生成任务中使用最大似然策略( ),将输入图像转换为高斯潜在空间。 通过简单的计算就可以得到高斯向量的似然度。 然后使用现成的 Adam 优化器,这个损失函数就会稳定收敛。
△单次损失稳定收敛
流量本质上是稳定的。 由于该模型只有一层网络和一个损失,因此其超参数要少得多,并且更容易训练。
这对于开发新模型的研究人员特别有用。
新手可以更轻松地比较不同架构的 Flow 变体。
输入输出保持高度稳定
如果没有进一步干预,条件 GAN 的输入不一致。 对于分辨率升级任务,一个重要的问题是高分辨率图像是否与低分辨率输入最大限度地一致。
如果不是,这种方法实际上是提高了分辨率还是只是生成了类似的图像? 这是非常值得怀疑的。
GAN模型中存在无监督损失函数,导致模型自行生成图像像素。 标准化流模型避免了这种可能性。 它模拟仅以输入图像为条件的高分辨率图像的分布。
将输出与输入进行比较,我们可以看到它与GAN的结果不同,并且具有很高的一致性。
生成任务只需要1个GPU进行训练
研究团队表示,论文中的实验基于 GLOW 网络,并使用了多达 40 个 GPU 来训练图像生成。
但如果你只是处理简单的图像生成任务,则只需要 GPU 即可完成训练。
什么是标准化流程模型?
机器学习的一种类型是概率模型。 训练模型时,常见的做法是调整参数以最大化模型在训练数据集中的概率。
为了实现这一目标,需要假设模型满足一定的概率分布模式。
那么需要什么样的分布,既具有接近真实样本的表达能力,又具有良好的统计机器学习模型的可解释性呢?
高斯分布基本上可以满足以下要求:采样方便、解析密度已知、KL距离计算方便、中心极限定理的保证。 两种最常用的方法是分类和回归。
但这两种方法仍然存在一些问题,因为现实世界中样本的概率密度函数一般与类别分布和高斯分布相差甚远。
如果单纯使用高斯作为图像生成的似然函数,最终生成的结果可能会很糟糕。
标准化流(Flow)可以将简单的概率密度(如高斯分布)形式转化为一些更高级的分布形式。
流是指通过一系列双射(可逆映射)的数据流。 最终映射到合适的表示空间意味着表示空间的变量积分为1,满足概率分布函数的定义。
归一化流是一种可以产生更强大的分布函数的工具。
从另一个角度来看,归一化流可以看作是先验概率q的参数化逼近方法,也可以用于其他似然函数方程场景。
与 GAN 不同,标准化流模型在采样、训练稳定性、损失函数收敛和一致性方面具有优势。
标准化流模型更适合图像生成、强化学习、变分推理等任务。
团队将这个基于标准化流程的模型开源了。
那么您会在下一个机器学习任务中使用它吗?
论文地址
开源地址
- 超过-
量子比特·今日头条签约协议
关注我们,第一时间了解前沿技术动态