文本对图像和图像对文本创建[1,2]由于其广泛使用而变得非常流行。这种比较分析的目的是确定各种文本到图像创建技术的优势和缺点[3]。我们可以通过研究其建筑设计来了解促进其图片综合技能的基本机制。Cogview (ELBO), discrete variational auto-encoders (dVAE), multi-stage AttnGAN, generative adversarial networks (GANs), LSTM+GAN, CycleGAN+BERT, DF-GAN, MirrorGAN, VQ-SEG (a modified VQ-VAE), StackGAN+fine-tuned BERT text encoding models, and DALL-E-2 are among the models investigated.除了建筑比较外,我们还要查看这些模型用于培训和评估的数据集。这包括众所周知的基准,例如可可和幼崽,以及针对文本到图像创建的定制数据集[4]。这些数据集的多样性和数量以及所使用的任何预处理技术都对模型性能产生重大影响。在现场使用了各种性能指标来分析生产照片的质量。我们的研究包含
可转载 WCl>ouI -elen pennossion !rQm IIle ~ _ For SutJIocrlJIIClf1 Se PO 。 博 ~ 58666,布克勒 CO 80322~ 。 或 ca.UHIOO·289-038ll。 tn CO 计算值 1·~ 7·9330。 sUbsC ""'_ 汇率为:ooe yel r $24,97; 1wO 年 S39.97。 加内达的广告费为 1 美元。 00,对于 Olhet COUnlne s S19 .OO Syr1 ace 和 537.00 a,""a' 每年,AM f o< elgn 订单必须伴随美国资金的 Pllyment。 第二份邮资已付,地址为新罕布什尔州佩尔博罗。 以及其他邮寄办公室。 加拿大二级邮件注册号码9566. 加拿大 GST 注册 ' 125393314 MK:rofilm 编辑 iOll-U niver· sity M K:l ofilm,Ann Arbor MJ 48106,邮政局长。 将地址变更发送至:73 Amateur Radio Today。 P.O. Box 58866. Boulder CO 8032N I866. < /div>PO 。博 ~ 58666,布克勒 CO 80322~ 。或 ca.UHIOO·289-038ll。tn CO 计算值 1·~ 7·9330。sUbsC ""'_ 汇率为:ooe yel r $24,97; 1wO 年 S39.97。加内达的广告费为 1 美元。00,对于 Olhet COUnlne s S19 .OO Syr1 ace 和 537.00 a,""a' 每年,AM f o< elgn 订单必须伴随美国资金的 Pllyment。第二份邮资已付,地址为新罕布什尔州佩尔博罗。 以及其他邮寄办公室。 加拿大二级邮件注册号码9566. 加拿大 GST 注册 ' 125393314 MK:rofilm 编辑 iOll-U niver· sity M K:l ofilm,Ann Arbor MJ 48106,邮政局长。 将地址变更发送至:73 Amateur Radio Today。 P.O. Box 58866. Boulder CO 8032N I866. < /div>第二份邮资已付,地址为新罕布什尔州佩尔博罗。以及其他邮寄办公室。加拿大二级邮件注册号码9566.加拿大 GST 注册 ' 125393314 MK:rofilm 编辑 iOll-U niver· sity M K:l ofilm,Ann Arbor MJ 48106,邮政局长。将地址变更发送至:73 Amateur Radio Today。P.O.Box 58866.Boulder CO 8032N I866. < /div>
[1] Jimmy Lei BA,Jamie Ryan Kiros和Geoffrey E. Hinton。层归一化。2016。Arxiv:1607.06450 [Stat.ml]。[2] Nanxin Chen等。Wavegrad:估计波形产生的梯度。2020。Arxiv:2009.00713 [Eess.as]。[3]凯瑟琳·克罗森(Katherine Crowson)。在CIFAR-10上训练扩散模型。在线。2024。URL:https://colab.research.google.com/drive/1ijkrrv-d7bosclvkhi7t5docryqortm3。[4]凯瑟琳·克罗森(Katherine Crowson)。v-diffusion。在线。2024。URL:https: / / github。com/crowsonkb/v-diffusion-pytorch/blob/master/diffusion/utils.py。[5] Ekin D. Cubuk等。randaugment:实用的自动化数据增强,并减少了搜索空间。2019。Arxiv:1909.13719 [CS.CV]。 [6] Yann N. Dauphin等。 通过封闭式卷积网络进行语言建模。 2017。Arxiv:1612.08083 [CS.CL]。 [7] Mostafa Dehghani等。 通用变压器。 2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1909.13719 [CS.CV]。[6] Yann N. Dauphin等。通过封闭式卷积网络进行语言建模。2017。Arxiv:1612.08083 [CS.CL]。[7] Mostafa Dehghani等。通用变压器。2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1807.03819 [CS.CL]。[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐性产生和概括。2020。Arxiv:1903.08689 [CS.LG]。[9] Ian J. Goodfellow等。生成对抗网络。2014。Arxiv:1406.2661 [Stat.ml]。[10] Dan Hendrycks和Kevin Gimpel。高斯错误线性单元(Gelus)。2023。Arxiv:1606.08415 [CS.LG]。[11] Jonathan Ho,Ajay Jain和Pieter Abbeel。剥离扩散概率模型。2020。Arxiv:2006.11239 [CS.LG]。[12] Jonathan Ho和Tim Salimans。无分类器扩散指南。2022。ARXIV:2207.12598 [CS.LG]。[13]安德鲁·霍华德(Andrew Howard)等人。搜索MobilenetV3。2019。Arxiv:1905.02244 [CS.CV]。[14] Andrew G. Howard等。 Mobilenets:用于移动视觉应用的有效卷积神经网络。 2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。[14] Andrew G. Howard等。Mobilenets:用于移动视觉应用的有效卷积神经网络。2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。2017。Arxiv:1704.04861 [CS.CV]。[15] Forrest N. Iandola等。squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。2016。Arxiv:1602.07360 [CS.CV]。[16] Imagenet 64x64基准(图像生成)。用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。[17] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变性转移来加速深层网络训练。2015。Arxiv:1502.03167 [CS.LG]。[18] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化的方法。2017。Arxiv:1412.6980 [CS.LG]。[19] Diederik P. Kingma和Ruiqi Gao。将扩散目标理解为具有简单数据增强的ELBO。2023。Arxiv:2303.00848 [CS.LG]。[20] Diederik P. Kingma等。变化扩散模型。2023。Arxiv:2107.00630 [CS.LG]。[21] Zhenzhong Lan等。albert:一个精简版的语言表示学习。2020。Arxiv:1909.11942 [CS.CL]。[22] Ilya Loshchilov和Frank Hutter。重量衰减正则化。2019。Arxiv:1711.05101 [CS.LG]。[23] Preetum Nakkiran等。深度下降:更大的模型和更多数据损害。2019。Arxiv:1912.02292 [CS.LG]。[24] Alex Nichol和Prafulla Dhariwal。改进了扩散概率模型。2021。Arxiv:2102.09672 [CS.LG]。[25] Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu。像素复发性神经网络。2016。Arxiv:1601.06759 [CS.CV]。[26] Prajit Ramachandran,Barret Zoph和Quoc V. Le。搜索激活功能。2017。Arxiv:1710.05941 [CS.NE]。 [27] Danilo Jimenez Rezende和Shakir Mohamed。 差异推断与归一化流量。 2016。Arxiv:1505.05770 [Stat.ml]。2017。Arxiv:1710.05941 [CS.NE]。[27] Danilo Jimenez Rezende和Shakir Mohamed。差异推断与归一化流量。2016。Arxiv:1505.05770 [Stat.ml]。