近年来,学术界对游戏成瘾的神经学影响以及游戏开发商(他们通过科学设计游戏来让用户上瘾)的潜在侵权责任的兴趣日益浓厚。目前,不同学科的学者正在就游戏成瘾这一全球公认的疾病所涉及的问题的范围和潜在解决方案展开辩论。本文通过对视频游戏成瘾的范围、其神经学基础及其与受害者和游戏开发商的法律权利和责任的关系进行多学科分析,为这一讨论做出了贡献。此外,本文还探讨了追究视频游戏开发商责任的实际意义以及规范和道德基础。本文提出了一种新颖的理论,即成功实现改写游戏玩家神经通路意图的视频游戏开发商应该对故意殴打侵权行为负责。
我们提出了G en 3c,这是一种具有精确的C amera c onTrol和暂时3D C的生成视频模型。先前的视频模型已经生成了现实的视频,但是它们倾向于利用少量3D信息,导致不一致的情况,例如弹出和不存在的对象。相机控制(如果完全实现)是不精确的,因为相机参数仅是对神经网络的输入,然后必须推断视频依赖相机。相比之下,G en 3c由3D缓存:通过预测种子图像的像素深度或先前生成的框架获得的点云。生成下一个帧时,G en 3c由用户提供的新摄像头轨迹在3D缓存的2D渲染上进行条件。至关重要的是,这意味着G en 3c都不必须记住它的预期
摘要。我们提出了W.A.L.T,是从文本提示中生成照相视频的分段变压器。我们的方法有两个关键的设计决策。首先,我们使用因果编码器在一个统一的潜在空间内共同压缩图像和视频,从而使跨模态培训和发电。第二,为了记忆和训练效率,我们使用针对关节空间和Spatiotempo-po-ral生成建模的窗口注意体系结构。综合这些设计决策使我们能够在既定视频(UCF-101和Kinetics-600)和Image(ImageNet)生成基准上实现最先进的性能,而无需使用分类免费的指导。最后,我们还培训了三个模型的级联,以完成由基本的潜在视频差异模型组成的文本到视频生成的任务,以及两个视频超分辨率分离模型,以每秒8帧的速度生成512×896分辨率的视频。
处理VAD的最常见方法是单级学习[1],它仅在训练正常数据上训练异常检测模型,即没有异常,执行不同的辅助任务,例如重建和预测。主要的假设是对正常数据训练,模型无法正确重建或预测包含异常的视频帧。但是,此类方法只有在相当简单的数据集上表现良好,在这些数据集上可以通过视觉外观或运动来定义异常,并且在异常事件中包含高级语义信息(远程轨迹,个体或对象之间的相互作用)的视频上失败。存在其他方法来处理VAD,例如弱监督[2]或少量学习方法[3]。此类方法在培训中使用了一些异常示例,这些示例有助于捕获更复杂的异常,需要了解高级语义信息[4,5]。最近,视觉语言模型[6,7]由于能够处理图像和文本的能力而获得了很多知名度。他们的应用程序包括视觉问答(VQA),图像字幕和文本对图像搜索。在VAD中使用此类模型的优点在于它们不仅检测到视频异常,而且提供了它们的描述,这有助于更好地理解和解释发生异常[8]。在这次实习中,我们将使用VAD方法来处理需要通过在培训中使用一些异常样本来处理需要高级语义信息的异常。除了异常检测任务外,我们还将通过利用VLM模型来解决视频异常理解的问题。
这种国际参与是塑造学生之间21世纪技能的基石,包括适应性,数字素养,团队合作和跨文化能力。,它通过使学生了解各种观点和创新方法,为增强批判性思维和解决问题的技能提供了宝贵的机会。此外,该协作启发了创造力,并鼓励学生超越传统界限。
由于视频已成为一种主流形式的交流和通知,因此越来越多的最终用户创建和共享视频。YouTube被认为是最受欢迎的视频SO网络,现在拥有大约6400万个创作者世界范围[26]。然而,创建引人注目的视频是一项复杂且耗时的任务。创作者需要找到关键时刻[79],并将其移动不相关和重复的内容[29,37]。他们还花时间使视频更具视觉效果,B-roll [35],文本[83]和音乐[61]。视频理解和生成模型的最新进展显示出了协助视频编辑的巨大潜力。先前的研究表明,AI工具可以加快视频创作的多个阶段,包括脚本写作[53],情节板[78],将剪辑剪切成粗糙的剪辑[20,69],识别低质量的镜头[29,37],并添加B-Roll [35]。最近的AI视频产品,例如OpusClip [22],Capcut [13]和Vizard [72],通过自动进行剪切并添加过渡效果和字幕,进一步简化了视频编辑。生成AI模型启用的一种强大的新功能是快速生成多种变体。这使创作者可以同时探索许多替代故事或B卷的位置,从而可能导致更好的最终视频[24,62]。虽然大多数现有的视频编辑工具旨在一次仅处理一个视频版本,但最近的AI工具(例如OpusClip [22]和Capcut [13])生成了多种编辑视频的变体,以为用户提供不同的选项。尽管在创意任务中探索替代方案的好处,但用户仍有新的负担:1)比较变化[31,36]和2)随着时间的推移将它们管理[58,62]。虽然先前的工作探讨了文本[31、58、63]中多个AI世代的感觉和比较,但图像[3,36]和设计[50,64],由于视频的时间性质,比较多个视频提出了独特的挑战。在这项工作中,我们介绍了这种新兴的视频编辑方法,该视频编辑以多种变化为中心。要了解用多个替代方案创作视频的机会和挑战,我们进行了一项形成性研究,其中8个专业视频创建者的任务是比较相同源内容的多个编辑视频。我们的研究中的创作者提到,比较是当前视频编辑过程中的一种常见实践,因为他们考虑了替代性叙述,视觉资产或视频长度。他们还强调,拥有替代方案可以帮助他们反思自己的偏好并进一步计划编辑说明,但是手动创建多个版本是耗时的。随着AI加快视频创建过程的加快,我们设想将来的视频编辑工具将更常见地为用户提供多种变化。
视频字幕是一项视觉理解任务,旨在以语法和语义准确的描述生成。视频字幕中的主要挑战之一是捕获视频中存在的复杂动态。这项研究通过利用预先训练的3D卷积神经网络(3D-CNN)来解决这一挑战。这些网络在建模此类动态,增强视频上下文理解方面特别有效。我们评估了Microsoft研究视频描述(MSVD)数据集的方法,并在视频字幕中通常使用性能指标,包括苹果酒,BLEU-1至BLEU-4,Rouge-L,Rouge-L,Meteor和Spice。结果显示了所有这些指标的显着改善,证明了预训练的3D-CNN在增强视频字幕准确性方面的优势。关键字:视频字幕,视频语言多模式学习,运动功能。
对机器任务的深视频压缩(DVC)的事先研究通常需要为每个特定任务培训一个独特的编解码器,从而规定每个任务的专用解码器。相比之下,传统视频编解码器采用了flex ible编码器控制器,从而通过模式预测等机制使Single编解码器适应了不同的任务。从中汲取灵感,我们引入了一个创新的编码器控制器,以用于机器的深度视频压缩。此控制器具有模式预测和一组图片(GOP)选择模块。我们的AP-ARACH在编码阶段集中控制控制,从而允许跨不同任务(例如检测和跟踪)进行适应性的编码器调整,同时与标准的预训练的DVC解码器保持合理性。示例证明我们的方法是在具有各种现有预训练的DVC的多个任务中适用的。此外,广泛的实验表明,对于不同的任务,我们的方法比以前的DVC比以前的DVC大约25%,只有一个预先训练的解码器。
•使用LLM进行视频分类,操作识别,对象检测和跟踪,细分,字幕和其他视频理解任务的含义。•通过LLM的预训练策略,例如自我监督学习,无监督学习和多任务学习,零/少量视频表示学习。•多模式基础模型的技术进步,包括视觉基础模型,视频语言基础模型和视觉语言动作基础模型。•LLM在各个行业和跨学科领域的视频理解的应用,例如智能制造,机器人技术,智能城市,生物医学和地理。•探索将LLM与扩散模型相结合的能力,以增强视频内容的生成或编辑的可访问性和多样性。•克服与利用LLM有关的视频理解相关的技术障碍,包括对解释性和安全性的担忧。
© 版权所有 2022 Advanced Micro Devices, Inc. 保留所有权利。Xilinx、Xilinx 徽标、AMD、AMD 箭头徽标、Alveo、Artix、Kintex、Kria、Spartan、Versal、Vitis、Virtex、Vivado、Zynq 和本文中包括的其他指定品牌是 Advanced Micro Devices, Inc. 的商标。本出版物中使用的其他产品名称仅用于识别目的,可能是其各自公司的商标。AMBA、AMBA Designer、ARM、ARM1176JZ-S、CoreSight、Cortex 和 PrimeCell 是 ARM 在欧盟和其他国家/地区的商标。PCIe 和 PCI Express 是 PCI-SIG 的商标,经许可使用。在美国印刷 SF81722