CAI 2840 计算机视觉简介 (3 学分) 本课程深入探讨使计算机能够“看到”和理解视觉世界的科学和工程原理。我们将探索计算机如何处理、分析和解释数字图像和视频,从而解锁各个领域的宝贵见解和应用。主题包括卷积神经网络 (CNN),现代计算机视觉的主力,以及生成对抗网络 (GAN),一种不仅可以分析图像,还可以生成全新逼真图像的 AI 系统。
目的:本研究探索生成人工智能平台生成膝盖逼真图像的能力,膝盖是医疗专业人士广泛研究的复杂解剖区域。方法:使用 Midjourney、Leonardo.Ai 和 BlueWillow 等工具,以“解剖膝盖韧带以供研究的真实图像”为提示进行实验。结果:尽管取得了显著的进步,尤其是 Midjourney,但生成的图像缺乏精确的解剖细节,通常会歪曲结构。结论:人工智能生成用于学习解剖学的图像仍然存在重大局限性。关键词:人工智能、解剖学、医学教育
近年来,煽动性或误导性的“假”新闻内容泛滥已变得越来越普遍。同时,使用 AI 工具生成描绘任何可以想象到的场景的逼真图像也变得比以往任何时候都更容易。将这两者结合起来——AI 生成的假新闻内容——尤其有害且危险。为了打击 AI 生成的假新闻的传播,我们提出了 Mi-RAGeNews 数据集,这是一套包含 12,500 个高质量真实和 AI 生成的图像-字幕对的数据集,这些图像-字幕对均来自最先进的生成器。我们发现我们的数据集对人类(60% F-1)和最先进的多模态 LLM(< 24% F-1)都构成了重大挑战。使用我们的数据集,我们训练了一个多模态检测器(MiRAGe),与来自域外图像生成器和新闻发布商的图像-字幕对的最新基线相比,其 F-1 提高了 +5.1%。我们发布代码和数据以帮助未来检测人工智能生成的内容。1
于 2022 年 8 月。作为 OpenAI 的竞争对手,谷歌提出了两种可以生成逼真图像的文本转图像模型:基于扩散的模型 Imagen [Saharia et al。,2022a] 和 Pathways 自回归文本转图像模型 (Parti) [Yu et al。,2022]。除了文本转图像任务外,扩散模型还广泛用于图像转图像 [Saharia et al。,2022b;Whang et al。,2022] 和文本转视频模型,例如 Runway [Runway,2022]、Make-A-Video [Singer et al。,2022]、Imagen Video [Ho et al。,2022] 和 Phenaki [Villegas et al。,2022]。稳定扩散已适用于各种应用,从医学成像 [Chambon 等人,2022] 到音乐生成 [Agostinelli 等人,2023]。除了图像和视频生成之外,文本生成还极大地影响了人类的生活,从创作一篇文章或整篇文章到协助工程师编写代码。
计算机图形学 AlphaFold 是一个神经网络,它通过将蛋白质结构建模和预测为 3D 空间中的图推理问题来创建高精度的 3D 蛋白质结构 14,其中附近的残基定义图的边缘。对表示被编码为图中的有向边(即残基之间的连接)。 NVIDIA Canvas 应用程序 GauGAN 实时将“海浪拍打海滩上的岩石”等文本短语转换为虚拟风景图像。当添加形容词(如“岩石海滩上的日落”)或将“日落”替换为“下午”或“下雨天”时,模型会立即修改图片。 15 类似地,DALL•E 是 GPT-3 的编译版本,它以文本/图像对为输入,根据用自然语言表达的概念的文本描述生成图像。 16 最新的基于 GDM 的文本到图像生成方法是 DALL•E 2 16,17 和 Imagen 18,它们分别能够生成多样化、高质量的艺术和逼真图像。3D-GAN 创建 3D 形状 19,可以在 3D 空间中操作(几何变换),然后缩小到 2D 图像表示。
现代生成的对抗网络(gan)通过从潜在的z(即随机向量)中采样(即随机向量),并将其映射到x中的逼真图像(例如3D MRIS),从而实现了完整的3D脑图像的现实生成。为了解决无处不在的模式集合问题,最近的作品强烈强烈施加了某些特征,例如通过编码将x明确映射到z的先验。但是,这些效果无法将3D脑图像准确地映射到所需的先验中,生成器假定是从中对随机向量进行采样的。另一方面,各种自动编码gan(vae-gan)通过通过两个学习的参数强制执行高斯,但会导致图像中的模糊性。在这项工作中,我们展示了我们的循环一致嵌入GAN(CCE-GAN)如何准确地将3D MRI编码为标准的正常先验,并保持生成的图像的质量。我们在没有基于网络的代码歧视器的情况下通过Wasserstein度量实现了这一目标。我们使用ADNI的健康T1加权MRI进行定量和定性评估嵌入和产生的3D MRI。关键字:自动编码器,潜在空间,生成对抗网络,周期同意,3D MRI
生成人工智能(AI)是指能够自主创建新颖,现实的数字内容的算法。最近,生成模型在图像和音频综合等领域中获得了突破性的结果,激发了对该领域的浓厚兴趣。本文调查了为创意AI系统兴起的现代技术的景观。我们在结构上检查主要算法方法,包括生成对抗网络(GAN),变异自动编码器(VAE)和自回归模型。针对每个类别下的主要模型突出显示了架构创新和生成的输出的图。我们特别注意用于构建逼真图像的生成技术,从早期的GAN样品到现代扩散模型(如稳定扩散)的快速进步。本文进一步审查了生成建模,以创建令人信服的音频,视频和3D渲染,这些音频,视频和3D渲染引入了假媒体检测和数据偏见的关键挑战。此外,我们讨论了已经在生成建模方面进步的常见数据集。最后,围绕评估,技术融合,控制模型行为,商业部署和道德注意事项的开放问题被视为未来工作的活动领域。这项调查介绍了塑造生成AI状态和轨迹的长期和新兴技术。关键目标是概述主要算法系列,通过示例模型突出创新,合成多媒体生成的功能,并讨论有关数据,评估,控制和道德规范的开放问题。请让我知道您是否想澄清或修改此提议的摘要。
上下文。随着天文调查产生的数据量的越来越多,自动分析方法已变得至关重要。合成数据是开发和测试此类方法所必需的。当前模拟的经典方法通常从不可能的细节或源类型出现的不准确表示。深层生成建模已成为综合现实图像数据以克服这些定义的新方法。目标。,我们实施了一个深入的生成模型,该模型对观测值进行了训练,以产生逼真的射电星系图像,并完全控制了频道和源形态。方法。我们使用了一个分散模型,该模型经过连续的时间步骤训练,以减少采样时间而没有质量损害。这两个模型分别在两个不同的数据集上进行了培训。一组是从Lofar两米高调查(Lots)的第二个数据发布中获得的图像选择。该模型在重新缩放图像像素值后保留信号强度信息的峰值条件。另一个较小的集合是从非常大的阵列(VLA)调查中,对二十秒(第一个)的无线电天空的微弱图像进行了调查。在该集合中,每个图像都带有形态学类标签。有条件的抽样是通过无分类的分解指导实现的。,我们通过比较了实际数据和生成数据的不同数量的分布来评估生成的图像的质量,包括来自标准源填充算法的结果。结果。通过培训分类器并比较其在实际数据和生成的数据上的性能来评估类调节。我们已经能够使用25个采样步骤来生成高质量的逼真图像,这在射电天文学领域是前所未有的。生成的图像在视觉上与训练数据无法区分,并且已成功复制了不同图像指标的分布。分类器显示出对真实图像和生成的图像的表现同样出色,表明对形态源特性的强烈采样控制。
近年来,生成式人工智能的使用量激增,为生活的许多领域开辟了众多新的可能性。这项令人振奋的技术有可能创造一切,从令人信服的深度伪造到基于文本描述的逼真图像。在音乐行业,人工智能通过创作新作品和制作独特的音景发挥了创造性的作用。语音合成已经发展到人工智能可以生成自然声音的地步,这些声音可用于有声读物和虚拟助手等各种环境。基于生成式人工智能的聊天机器人能够生成文本并理解自然语言,从而实现与人类的对话。然而,人们也担心生成式人工智能会对学校和教育等不同领域产生负面影响(Lo,2023 年)。由于生成式聊天机器人能够回答大量不同的问题,因此它还可用于完成书面作业或在考试中作弊。因此,有多个学校和大学禁止在校园内使用聊天机器人的记录(美国之音新闻,2024 年)。毫无疑问,聊天机器人有可能影响许多不同的行业和职业,学校和教育也不例外。学生应该学习如何有效地使用这些聊天机器人,并在合适的时间使用它们。此外,聊天机器人还可以减轻或帮助教师完成一些日常工作(Labadze 等人,2023 年)。然而,学生和教师应该如何使用生成式人工智能取决于其推理和理解与教育相关的概念的能力和能力。OpenAI 的聊天机器人 ChatGPT 于 2022 年 11 月 30 日发布后风靡全球。从那时起,生成式人工智能的发展急剧增加。谷歌开发了一个名为 Gemini 的 ChatGPT 竞争对手,谷歌声称它能够为学生提供有关各种数学和物理任务的有效和个性化反馈(谷歌,2023 年)。为了使聊天机器人能够有效地提供这种类型的交互式反馈,它必须能够解决学生寻求帮助的任务。大多数关于大型语言模型 (LLM) 性能的教育研究工作都基于 GPT-3.5 和 GPT-4 研究了 OpenAI 的 ChatGPT(Polverini 和 Gregorcic,2024b)。自该研究发布以来,已在许多领域开展了大量研究( Choi 等人,2022 年; Geerling 等人,2022 年)。,2023 ;Nori 等人,2023 )展示了 ChatGPT 的潜力和局限性(Brown 等人。,2020;Rae 等人。,2022;Borji,2023;Frieder 等人。,2023;Ji 等人。总体而言,基于订阅的 ChatGPT-4 被认为是 LLM 的最新成果(Gregorcic 等人。,2024 )。此前,Polverini 和 Gregorcic(2024b)已经证明了 ChatGPT 能够解决与“运动学图”相关的物理问题,来自运动学图理解测试(TUG-K)的学习效果一直受到限制。特别是,他们发现 ChatGPT 在“查看”和解释运动学图方面存在困难。尽管 ChatGPT 通常能够使用正确的物理推理并提供良好的问题解决描述,但其视觉限制确实造成了困难,导致 ChatGPT 在 TUG-K 中取得的总分与普通高中生相似(Zavala 等人,2017 年)。ChatGPT 在辅助学习方面的有效性