摘要。生成人工智能 (AI) 的最新进展引起了全世界的关注。Dalle-2 和 ChatGPT 等工具表明,以前被认为超出 AI 能力范围的任务现在可以通过各种新方式增强创意媒体的生产力,包括通过生成合成视频。本研究论文探讨了使用 AI 生成的合成视频为在线教育环境创建可行教育内容的实用性。迄今为止,研究 AI 生成的合成媒体在现实世界中的教育价值的研究有限。为了解决这一差距,我们研究了在在线学习平台中使用 AI 生成的合成视频对学习者的内容获取和学习体验的影响。我们采用了混合方法,将成人学习者 (n = 83) 随机分配到两个微学习条件之一,收集学习前和学习后的评估,并调查参与者的学习体验。控制条件包括传统制作的讲师视频,而实验条件包括具有逼真的 AI 生成角色的合成视频。结果表明,两种条件下的学习者从学习前到学习后都表现出显着的进步 (p < .001),两种条件之间的收益没有显着差异 (p = .80)。此外,学习者对传统视频和合成视频的看法没有差异。这些研究结果表明,AI 生成的合成学习视频有可能成为在线教育环境中通过传统方法制作的视频的可行替代品,使高质量的教育内容在全球范围内更容易获得。
为了展示其技术并挑战合成媒体因其近期滥用历史而获得的负面声誉,Alethea AI 制作了以下有关气候紧急情况的视频。这段讽刺性的合成视频是为 Apologia 项目制作的,该项目是由非营利组织 STEP 发起的气候变化宣传项目,令人不安地描述了 2032 年的世界状况。选择这一年份是因为科学家预测地球温度将达到相应的 +1.5°C 上限,这被广泛认为是不可挽回的。未来几周,人们将民主投票选出下一位应该为忽视气候紧急情况道歉的领导人。使用 Alethea AI 技术生成的所有合成视频都将带有显眼的免责声明,并加注水印以表明视频已被数字修改。
摘要:尽管美国变得越来越多样化,但生成的人工智能和相关技术威胁到破坏真正的代表性民主。剩下的,AI将加剧现有的现有挑战,例如种族两极分化,文化焦虑,反民主态度,种族投票稀释和抑制选民。合成视频和音频(“ Deepfakes”)受到大多数流行的关注,但只是冰山一角。对种族量身定制的虚假信息,自动选举管理中的种族偏见,种族针对性的网络攻击以及AI驱动的监视的微靶向,这使种族正义声称只是AI如何威胁民主国家的一些例子。不幸的是,现有法律(包括《投票权法》)不太可能应对挑战。但是,如果政策制定者,激进主义者,
摘要。超声视频分类可以实现自动诊断,并成为重要的研究领域。但是,公开可用的超声视频数据集仍然稀缺,阻碍了开发有效的视频分类模型的进展。我们通过从可读取的丰富超声图像中合成合理的超声视频来解决这种短缺。为此,我们引入了一个潜在的动态扩散模型(LDDM),以有效地将静态图像转换为具有现实视频特征的动态序列。我们在BUSV基准上展示了强大的定量结果和视觉吸引力的合成视频。值得注意的是,关于真实和LDDM合成视频的组合的培训视频分类模型大大改善了单独使用真实数据的性能,这表明我们的方法成功地模拟了对歧视至关重要的动态。我们的图像到视频方法提供了有效的数据增强解决方案,以推进超声视频分析。代码可在https://github.com/medaitech/u_i2v上找到。
人们对出于各种目的的人们的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层假期模型的开发,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更仔细的法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以“木偶”的图像“木偶”。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但要从另一个来源传输行为信号来区分原始说话者的动作。我们通过比较合成图像来进行研究:1)源自另一个人讲不同话语的人,2)起源于同一人说的话不同,而3)源自另一个人说相同话语的人。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造和正确捕获的视频。
本文介绍了政治深度伪造事件数据库 (PDID),这是一个政治上显著的深度伪造的集合,包括合成视频、图像和不太复杂的“廉价伪造”。该项目的推动因素包括政治中生成式人工智能的兴起、持续的应对危害的政策努力以及将人工智能事件与政治传播研究联系起来的需要。该数据库包含政治深度伪造内容、元数据和研究人员编码的描述符,这些描述符来自政治学、公共政策、传播和错误信息研究。它旨在帮助揭示政治深度伪造的普遍性、趋势和影响,例如那些以主要政治人物或事件为特色的深度伪造。PDID 可以对深度伪造的使用提供见解,协助监管,进行深入分析,支持事实核查和建立信任的努力,并提高对政治深度伪造的认识,从而使政策制定者、研究人员、记者、事实核查人员和公众受益。它适用于媒体效应、政治话语、人工智能伦理、技术治理、媒体素养和对策方面的研究和应用。
先前的工作已建立了测试时间培训(TTT)作为一般框架,以进一步改善训练有素的模型。在对每个测试实例进行预测之前,模型首先是在同一实例上使用自我监督的任务(例如重建)进行训练。我们将TTT扩展到流设置,其中多个测试实例(我们的情况下的视频帧)以时间顺序到达。我们的扩展名是在线ttt:当前模型是从上一个模型初始化的,然后在当前框架和一个小框架上进行了训练。在线TTT在三个现实世界数据集上显着优于四个任务的固定模型基线。改进超过2.2×和1.5倍,例如全盘分段。令人惊讶的是,在线TTT还胜过其offline变体,该变体严格访问更多信息,对整个测试视频中的所有帧进行培训,而不管时间顺序如何。此发现,使用合成视频挑战了先前的工作中的挑战。我们将当地的概念形式化为在线优于offl ttt的优势,并通过消融和基于偏见 - 差异交易的理论分析其作用。
虽然美国的种族多元化程度正在提高,但生成性人工智能和相关技术却有可能破坏真正的代议制民主。如果不加以控制,人工智能将加剧现有的重大挑战,例如种族两极分化、文化焦虑、反民主态度、种族选票稀释和选民压制。合成视频和音频(“深度伪造”)受到了大部分公众的关注,但这只是冰山一角。针对种族的微定位虚假信息、自动选举管理中的种族偏见、歧视性投票限制、针对种族的网络攻击以及阻碍种族正义主张的人工智能监控只是人工智能威胁民主的几个例子。不幸的是,现有法律(包括《投票权法案》)不太可能应对这些挑战。然而,如果政策制定者、活动家和技术公司立即采取行动,这些问题并非不可克服。本文主张对人工智能进行监管,以促进种族包容的民主,提出了为监管人工智能提供框架的新原则,并提供了具体的政策干预措施来说明这些原则的实施。尽管种族是影响美国投票模式的最重要人口因素,但这是第一篇全面识别人工智能对民主造成的种族危害并提出前进方向的文章。
来自扩散模型的大量合成视频对信息安全性和真实性构成威胁,从而导致对生成的内容检测的需求不断增长。但是,现有的视频级检测算法主要集中于检测面部伪造,并且通常无法识别具有各种语义范围的扩散生成的内容。为了推进视频取证领域,我们提出了一种创新算法,称为多模式检测(MM-DET),用于检测扩散生成的视频。mm-det利用了大型多模式模型(LMM)的深刻感知和全面能力,通过从LMM的多模式空间中产生多模式伪造表示(MMFR),从而增强了其检测到其不看见的伪造内容的能力。此外,MM-DET还利用了一个内在的框架注意(IAFA)机制来在时空结构域中进行特征增强。动态融合策略有助于改善融合的伪造代表。此外,我们在广泛的伪造视频中构建了一个称为扩散视频取证(DVF)的综合扩散视频数据集。mm-det在DVF中实现了最先进的性能,证明了我们的算法的有效性。源代码和DVF均可在链接中获得。