于 2022 年 8 月。作为 OpenAI 的竞争对手,谷歌提出了两种可以生成逼真图像的文本转图像模型:基于扩散的模型 Imagen [Saharia et al。,2022a] 和 Pathways 自回归文本转图像模型 (Parti) [Yu et al。,2022]。除了文本转图像任务外,扩散模型还广泛用于图像转图像 [Saharia et al。,2022b;Whang et al。,2022] 和文本转视频模型,例如 Runway [Runway,2022]、Make-A-Video [Singer et al。,2022]、Imagen Video [Ho et al。,2022] 和 Phenaki [Villegas et al。,2022]。稳定扩散已适用于各种应用,从医学成像 [Chambon 等人,2022] 到音乐生成 [Agostinelli 等人,2023]。除了图像和视频生成之外,文本生成还极大地影响了人类的生活,从创作一篇文章或整篇文章到协助工程师编写代码。
地方组织委员会•萨马特·萨哈里亚(Samat Saharia)教授,SHA,CSE,大学设计系,Tespur•Dutta Robin教授,院长,科学学校,大学,Tespur•教授P. P Mukhopadhyay,Tezpur大学MBBT系HOD,TEZPUR•TESPUR大学科学系Pachanri教授•亨特教授,MBBT系,大学,Despur•Nim博士,NIM博士,MBBT。•Despur大学MBBT系M. V. Kumar博士。•Tezpur大学MBBT系Barah博士。•乡村博士,MBBT,普遍教育,DESSDUR•DEZPUR博士•Dezpur的大学博士•Dezpur大学博士•Boro博士是Despur系的宇宙。
扩散模型从噪声中创建数据(Song等,2020)。他们经过训练,可以将数据的向前路径逆转到随机噪声,因此,可以使用神经网络的近似和泛化特性,可用于生成训练数据中不存在的新数据点,但遵循训练数据的分布(Sohl-Dickstein等人。,2015年; Song&Eron,2020)。这种生成建模技术已被证明非常有效地对高维,感知数据(例如图像)进行建模(Ho等人,2020)。近年来,扩散模型已成为产生具有令人印象深刻概括能力的自然语言输入的高分辨率图像和视频的事实方法(Saharia等人,2022b; Ramesh等。,2022; Rombach等。,2022; Podell等。,2023; Dai等。,2023; Esser等。,2023; Blattmann等。,2023b; Betker等。,2023; Blattmann等。,2023a; Singer等。,2022)。由于其迭代性质和相关的计算成本以及推理期间的较长采样时间,对这些模型进行更多有效训练的制剂的研究和/或更快的采样速度有所增加(Karras等人,2023;刘等。,2022)。
[4] Abeba Birhane、William Isaac、Vinodkumar Prabhakaran、Mark Diaz、Madeleine Clare Elish、Iason Gabriel 和 Shakir Mohammed。 2022.权力归人民?参与式人工智能的机遇与挑战。算法、机制和优化中的公平与访问(美国弗吉尼亚州阿灵顿)(EAAMO '22)。美国计算机协会,纽约,纽约州,美国,第 6 篇文章,8 页。 https://doi.org/10.1145/3551624.3555290 [5] Rishi Bommasani、Drew A. Hudson、Ehsan Adeli、Russ Altman、Simran Arora、Sydney von Arx、Michael S. Bernstein、Jeannette Bohg、Anthony Bosselut 等人。 2021. 论基础模式的机遇与风险。 arXiv 预印本 arXiv:2108.07258(2021)。 https://crfm.stanford.edu/assets/report.pdf [6] Zalan Borsos、Raphael Marinier、Damien Vincent、Eugene Kharitonov、Oliver Pietquin、Matt Sharifi、Oliver Teboul、David Grangier、Marco Tagliasacchi 和 Neil Zeghidour。 2022.AudioLM:一种用于音频生成的语言建模方法。 arXiv:2209.03143 [cs.SD] [7] 马修·伯特尔 (Matthew Burtell) 和托马斯·伍德赛德 (Thomas Woodside)。 2023.人工智能影响力:人工智能驱动的说服分析。 http://arxiv.org/abs/2303.08721 arXiv:2303.08721 [cs]。 [8] C2PA。 2024. 引入官方内容凭证图标 - C2PA — c2pa.org。 https://c2pa.org/post/contentcredentials/。 [访问日期:2024 年 1 月 17 日]。 [9] 维多利亚·克拉克、弗吉尼亚·布劳恩和尼基·海菲尔德。 2015.主题分析。定性心理学:研究方法实用指南 222,2015 (2015),248。[10] Joshua Cloudy、Jaime Banks、Nicholas David Bowman。 2023. The Str(AI)ght Scoop:人工智能线索减少对敌对媒体偏见的看法。数字新闻 11,9(2023 年 10 月),1577–1596。 https://doi.org/10.1080/21670811.2021.1969974 [11] 谷歌DeepMind。 2024.合成器ID。 https://deepmind.google/technologies/synthid/。访问日期:2024-1-1 [12] Upol Ehsan 和 Mark O. Riedl。 2020.以人为本的可解释人工智能:走向反思性社会技术方法。在 HCI International 2020 - 最新论文:多模态性和智能中,Constantine Stephanidis、Masaaki Kurosu、Helmut Degen 和 Lauren Reinerman-Jones(编辑)。 Springer International Publishing,Cham,449-466。 [13] Passant Elagroudy、Jie Li、Kaisa Vanänen、Paul Lukowicz、Hiroshi Ishii、Wendy Mackay、Elizabeth Churchill、Anicia Peters、Antti Oulasvirta、Rui Prada、Alexandra Diening、Giulia Barbareschi、Agnes Gruenerbl、Midori Kawaguchi、Abdallah El Ali、Fiona Draxler、Robin Welsch 和 Albrecht dt。 2024 年 CHI 计算机系统人为因素会议(美国夏威夷檀香山)(CHI '24 EA)的扩展摘要 https://doi.org/10.31234/osf.io/v4mfz [14] Ziv Epstein、Mengying C Fang、Antonio A Arechar 和 David G Rand。1996。价值敏感设计。互动 3、6(1996 年 12 月)、16–23。 https://doi.org/10.1145/242485.242493 [16] Ozlem Ozmen Garibay、Brent Winslow、Salvatore Andolina、Margherita Antona、Anja Bodenschatz、Constantinos Coursaris、Gregory Falco、Stephen M. Fiore、Ivan Garibay、Keri Grieman、John C. Havens、Marina Jirotka、 Hernisa Kacorri、Waldemar Karwowski、Joe Kider、Joseph Konstan、Sean Koon、Monica Lopez-Gonzalez、Iliana Maifeld-Carucci、Sean McGregor、Gavriel Salvendy、Ben Shneiderman、Constantine Stephanidis、Christina Strobel、Carolyn Ten Holter 和 Wei Xu。 2023. 以人为本的六大人工智能挑战。国际人机交互杂志 39,3 (2023),391–437。https://doi.org/10.1080/10447318.2022.2153320 arXiv:https://doi.org/10.1080/10447318.2022.2153320 [17] Colin M. Gray、Cristiana Santos、Nataliia Bielova、Michael Toth 和 Damian Clifford。2021. 黑暗模式和同意横幅的法律要求:互动批评视角。在 Proc. CHI '21 中。ACM,日本横滨,1-18。 https://doi.org/10.1145/3411764.3445779 [18] Matthew Groh、Aruna Sankaranarayanan、Nikhil Singh、Dong Young Kim、Andrew Lippman 和 Rosalind Picard。2023 年。人类对文字记录、音频和视频中的政治言论 Deepfakes 的检测。arXiv:2202.12883 [cs.HC] [19] Philipp Hacker、Andreas Engel 和 Marco Mauer。2023 年。监管 ChatGPT 和其他大型生成式 AI 模型。在 2023 年 ACM 公平、问责和透明度会议论文集(美国伊利诺伊州芝加哥)(FAccT '23)中。计算机协会,美国纽约州纽约,1112-1123。 https://doi.org/10.1145/3593013.3594067 [20] Geoff Hart。1996 年。“五个 W”:受众分析新任务的旧工具。技术交流 43,2(1996 年),139-145。http://www.jstor.org/stable/43088033 [21] Natali Helberger 和 Nicholas Diakopoulos。2023 年。ChatGPT 和 AI 法案。Internet Pol. Rev. 12,1(2023 年 2 月)。[22] Jonathan Ho、William Chan、Chitwan Saharia、Jay Whang、Ruiqi Gao、Alexey Gritsenko、Diederik P Kingma、Ben Poole、Mohammad Norouzi、David J Fleet 等人。2022 年。Imagen 视频:使用扩散模型生成高清视频。 arXiv:2210.02303 [cs.CV] [23] Mohammad Hosseini、David B Resnik 和 Kristi Holmes。2023 年。在撰写学术手稿时披露使用人工智能工具的伦理问题。研究伦理 19,4 (2023),449–465。https://doi.org/10.1177/17470161231180449 arXiv:https://doi.org/10.1177/17470161231180449 [24] Nanna Inie、Jeanette Falk 和 Steve Tanimoto。2023 年。设计参与式人工智能:创意专业人士对生成式人工智能的担忧和期望。在 2023 年 CHI 计算系统人为因素会议的扩展摘要中。1–8。 [25] Chenyan Jia、Alexander Boltz、Angie Zhang、Anqing Chen 和 Min Kyung Lee。2022 年。理解算法标签与社区标签对超党派错误信息感知准确性的影响。Proc. ACM Hum.-Comput. Interact。6,CSCW2,第 371 条(2022 年 11 月),27 页。https://doi.org/10.1145/3555096 [26] 贾长江、蔡岩、余元德和谢天浩。2016 年。5W+1H 模式:系统映射研究视角及云软件测试案例研究。系统与软件杂志 116(2016 年),206-219。https://doi.org/10.1016/j.jss.2015.01.058 [27] Michael H. Kernis 和 Brian M. Goldman。2006 年。真实性的多组分概念化:理论与研究。实验社会心理学进展。第 38 卷。爱思唯尔,283-357。 https://doi.org/10.1016/S0065-2601(06)38006-9
