A.W. 高级,R。Evans,J。Jumper,J。Kirkpatrick,L Sifre,T。Green,Ch。 Qin,A。Ž´Dek,A。W. R. Nelson,A。Bridgland,H。Penedones,S。Petersen,K。Simonyan,S。Crossan,P。Kohli,D.T。 Jones,D。Silver,K。Kavukcuoglu&Demis Hassabis(英国伦敦DeepMind, 伦敦弗朗西斯·克里克学院(Francis Crick Institute)A.W.高级,R。Evans,J。Jumper,J。Kirkpatrick,L Sifre,T。Green,Ch。Qin,A。Ž´Dek,A。W. R. Nelson,A。Bridgland,H。Penedones,S。Petersen,K。Simonyan,S。Crossan,P。Kohli,D.T。 Jones,D。Silver,K。Kavukcuoglu&Demis Hassabis(英国伦敦DeepMind, 伦敦弗朗西斯·克里克学院(Francis Crick Institute)Qin,A。Ž´Dek,A。W. R. Nelson,A。Bridgland,H。Penedones,S。Petersen,K。Simonyan,S。Crossan,P。Kohli,D.T。Jones,D。Silver,K。Kavukcuoglu&Demis Hassabis(英国伦敦DeepMind, 伦敦弗朗西斯·克里克学院(Francis Crick Institute)Jones,D。Silver,K。Kavukcuoglu&Demis Hassabis(英国伦敦DeepMind,伦敦弗朗西斯·克里克学院(Francis Crick Institute)
杰克·W·雷(Jack W. Rae)、塞巴斯蒂安·博尔热(Sebastian Borgeaud)、特雷弗·蔡(Trevor Cai)、凯蒂·米利肯(Katie Millican)、乔丹·霍夫曼(Jordan Hoffmann)、H. 弗朗西斯·宋(H. Francis Song)、约翰·阿斯兰尼德(John Aslanides)、莎拉·亨德森(Sarah Henderson)、罗曼·林格(Roman Ring)、苏珊娜·扬(Susannah Young)、伊丽莎·拉瑟福德(Eliza Rutherford)、汤姆·亨尼根(Tom Hennigan)、雅各布·梅尼克(Jacob Menick)、阿尔宾·卡西勒(Albin Cassirer)、理查德·鲍威尔(Richard Powell)、乔治·范登·德里斯切(George van den Driessche)、丽莎·安妮·亨德森(Lisa Anne Hendricks)、玛丽·亨德森(Marie Hendrick)、乔安妮·劳(Joanne Rauh)、萨拉·亨德森(Sarah Henderson)、韦尔布(Welbl)、苏曼斯·达萨特里(Sumanth Dathathri)、莎夫荣·黄(Saffron Huang)、乔纳森·乌埃萨托(Jonathan Uesato)、约翰·梅洛(John Mellor)、伊琳娜·希金斯(Irina Higgins)、安东尼娅·克雷斯韦尔(Antonia Creswell)、内特·麦卡利斯(Nat McAleese)、艾米·吴(Amy Wu)、埃里希·埃尔森(Erich Elsen)、西德汉特·M·贾亚库马尔(Siddhant M. Jayakumar)、叶莲娜·布查茨卡娅(Elena Buchatskaya)、大卫·布登(David Budden)、埃斯梅·萨瑟兰(Esme Sutherland)、凯伦·西蒙尼安(Karen Simoninian)、米凯拉·帕根(Michela Pagan)、劳伦·劳伦特(Lauren Laurent)、劳伦·坤(Lauren Kun)、拉古纳·坤(Laguna Kun)、艾达·内马扎德(Aida Nematzadeh)、叶莲娜·格里博夫斯卡娅(Elena Gribovskaya)、多米尼克·多纳托(Domenic Donato)、安吉利基·拉扎里杜(Angeliki Lazaridou)、亚瑟·门施(Arthur Mensch)、让 - 巴蒂斯特·莱斯皮奥(Jean - Baptiste Lespiau)、玛丽亚·辛普普凯利(Maria Tsimpoukelli)、尼古拉·格里戈列夫(Nikolai Grigorev)、道格·弗里茨(Doug Fritz)、蒂博·索蒂亚(Thibault Sottiaux)、曼塔斯·帕亚尔斯卡斯(Mantas Pajarskas)、托比·波伦(Toby Pohlen)、鞠志涛(Zhitao Gong)、丹尼尔·户田茂(Daniel Toyama)、赛(Cy)、马萨诸塞州(Massachusetts)、泰贾(Tajia)、泰贾乌德(Tajiaud)、尤蒂·弗拉基米尔·米库利克(Yuti Vladimir Mikulik)、伊戈尔·巴巴什金(Igor Babuschkin)、艾丹·克拉克(Aidan Clark)、迭戈·德拉斯·卡萨斯(Diego de Las Casas)、奥雷莉亚·盖伊(Aurelia Guy)、克里斯·琼斯(Chris Jones)、詹姆斯·布拉德伯里(James Bradbury)、马修·约翰逊(Matthew Johnson)、布莱克·A·赫希特曼(Blake A. Hechtman)、劳拉·魏丁格(Laura Weidinger)、伊森·加布里埃尔(Iason Gabriel)、威廉·S·艾萨克(William S. Isaac)、爱德华·洛克哈特(Edward Lockhart)、西蒙·奥辛德罗(Simon Osindero)、劳拉·里梅尔(Laura Rimell)、克里斯·戴尔(Chris Dyer)、奥里奥尔·维尼亚斯(Oriol Vinyas)、卡里姆·斯坦利(Kareem Stanley)、杰弗里·贝内特(Jeffrey Bennett)、科拉伊·卡武克丘奥卢(Koray Kavukcuoglu)和杰弗里·欧文(Geoffrey Irving)。.扩展语言模型:来自 Training Gopher 的方法、分析和见解。 arXiv 预印本 arXiv:2112.11446。
[1] Jimmy Lei BA,Jamie Ryan Kiros和Geoffrey E. Hinton。层归一化。2016。Arxiv:1607.06450 [Stat.ml]。[2] Nanxin Chen等。Wavegrad:估计波形产生的梯度。2020。Arxiv:2009.00713 [Eess.as]。[3]凯瑟琳·克罗森(Katherine Crowson)。在CIFAR-10上训练扩散模型。在线。2024。URL:https://colab.research.google.com/drive/1ijkrrv-d7bosclvkhi7t5docryqortm3。[4]凯瑟琳·克罗森(Katherine Crowson)。v-diffusion。在线。2024。URL:https: / / github。com/crowsonkb/v-diffusion-pytorch/blob/master/diffusion/utils.py。[5] Ekin D. Cubuk等。randaugment:实用的自动化数据增强,并减少了搜索空间。2019。Arxiv:1909.13719 [CS.CV]。 [6] Yann N. Dauphin等。 通过封闭式卷积网络进行语言建模。 2017。Arxiv:1612.08083 [CS.CL]。 [7] Mostafa Dehghani等。 通用变压器。 2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1909.13719 [CS.CV]。[6] Yann N. Dauphin等。通过封闭式卷积网络进行语言建模。2017。Arxiv:1612.08083 [CS.CL]。[7] Mostafa Dehghani等。通用变压器。2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1807.03819 [CS.CL]。[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐性产生和概括。2020。Arxiv:1903.08689 [CS.LG]。[9] Ian J. Goodfellow等。生成对抗网络。2014。Arxiv:1406.2661 [Stat.ml]。[10] Dan Hendrycks和Kevin Gimpel。高斯错误线性单元(Gelus)。2023。Arxiv:1606.08415 [CS.LG]。[11] Jonathan Ho,Ajay Jain和Pieter Abbeel。剥离扩散概率模型。2020。Arxiv:2006.11239 [CS.LG]。[12] Jonathan Ho和Tim Salimans。无分类器扩散指南。2022。ARXIV:2207.12598 [CS.LG]。[13]安德鲁·霍华德(Andrew Howard)等人。搜索MobilenetV3。2019。Arxiv:1905.02244 [CS.CV]。[14] Andrew G. Howard等。 Mobilenets:用于移动视觉应用的有效卷积神经网络。 2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。[14] Andrew G. Howard等。Mobilenets:用于移动视觉应用的有效卷积神经网络。2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。2017。Arxiv:1704.04861 [CS.CV]。[15] Forrest N. Iandola等。squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。2016。Arxiv:1602.07360 [CS.CV]。[16] Imagenet 64x64基准(图像生成)。用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。[17] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变性转移来加速深层网络训练。2015。Arxiv:1502.03167 [CS.LG]。[18] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化的方法。2017。Arxiv:1412.6980 [CS.LG]。[19] Diederik P. Kingma和Ruiqi Gao。将扩散目标理解为具有简单数据增强的ELBO。2023。Arxiv:2303.00848 [CS.LG]。[20] Diederik P. Kingma等。变化扩散模型。2023。Arxiv:2107.00630 [CS.LG]。[21] Zhenzhong Lan等。albert:一个精简版的语言表示学习。2020。Arxiv:1909.11942 [CS.CL]。[22] Ilya Loshchilov和Frank Hutter。重量衰减正则化。2019。Arxiv:1711.05101 [CS.LG]。[23] Preetum Nakkiran等。深度下降:更大的模型和更多数据损害。2019。Arxiv:1912.02292 [CS.LG]。[24] Alex Nichol和Prafulla Dhariwal。改进了扩散概率模型。2021。Arxiv:2102.09672 [CS.LG]。[25] Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu。像素复发性神经网络。2016。Arxiv:1601.06759 [CS.CV]。[26] Prajit Ramachandran,Barret Zoph和Quoc V. Le。搜索激活功能。2017。Arxiv:1710.05941 [CS.NE]。 [27] Danilo Jimenez Rezende和Shakir Mohamed。 差异推断与归一化流量。 2016。Arxiv:1505.05770 [Stat.ml]。2017。Arxiv:1710.05941 [CS.NE]。[27] Danilo Jimenez Rezende和Shakir Mohamed。差异推断与归一化流量。2016。Arxiv:1505.05770 [Stat.ml]。