摘要。近年来,几种流媒体服务的扩散使世界各地的各种受众都可以观看相同的媒体内容,例如电影或电视节目。虽然正在添加翻译和配音服务,以使当地受众访问内容,但支持具有不同能力的人(例如聋哑人和听力难(DHH)通信)可以访问的内容仍在滞后。我们的目标是通过与合成签名者生成手语视频,使DHH社区更容易访问媒体内容。使用相同的签名者对全球视图的给定媒体内容可能有限的吸引力。因此,我们的方法结合了参数建模和生成建模,以生成现实的合成签名者,并根据用户偏好自定义其外观。我们首先通过优化参数模型来重新定位人类手语构成3D手语的头像。然后,使用渲染的化身姿势来调节使用基于扩散的生成模型生成的合成签名者的姿势。合成签名者的外观由通过视觉适配器提供的图像提示控制。我们的结果表明,使用我们的方法生成的手语视频比仅在文本提示下的扩散模型生成的视频具有更好的时间固定性和现实主义。我们还支持多模式的提示,允许用户进一步自定义签名者的外观以备同行多样性(例如肤色,性别)。我们的方法对于签名匿名也很有用。
将自动驾驶汽车和智能基础设施整合到官方系统中是开发未来城市的关键组成部分。因此,有效的公共交流和早期公民参与对于将期望与新技术的能力保持一致至关重要。我们建议在虚拟现实中使用360度视频的观点,以在早期阶段向利益相关者展示潜在的技术,并加速设计过程并衡量生理反应。我们使用V2X通信和手臂手势在未信号交叉点上使用V2X通信和手臂手势来证明我们提出的方法。在OZ环境中使用机器人的机器人的初始视频记录显示,行人对机器人用例表现出好奇心。
世界模型通过在环境中提供代理商的预测性表示,并使代理商能够推理未来并做出更明智的决定,从而在基于模型的增强学习(RL)中起着至关重要的作用。但是,仍然存在两个主要问题,限制了世界模型的应用。首先,当前方法通常仅使用特定于域的数据来训练世界模型,这使得概括地看不见的情况或适应环境中的变化具有挑战性。第二,在使用野生视频中训练世界模型时,很难定义动作。在这项工作中,我们通过从不同规模和大型现实世界的视频数据集中学习通用世界模型来解决这两个问题,并提取了潜在的动作。具体来说,我们的方法利用预先训练的视觉编码器将两个相邻帧的图像投射到状态中;然后,根据向量量化,将潜在作用提取到低维空间中;最后,使用潜在动作学习了动态功能。结果表明,在野外视频数据集中测试时,提出的通用世界模型可以成功提取任意相邻帧的潜在动作。此外,在适应看不见的环境时,仅对少量域内数据进行微调可以显着提高通用世界模型的准确性。
最终分析共纳入216个视频,其中健康专业人士上传162个,普通用户上传40个,其余视频由个人科普工作者、盈利组织和新闻机构上传。所有视频的平均DISCERN、JAMA和GQS得分分别为48.87、1.86和2.06。健康专业人士上传的视频在DISCERN得分最高,而个人科普工作者上传的视频在JAMA和GQS得分明显高于其他来源。视频质量与视频特征的相关性分析显示,DISCERN得分、JAMA得分和GQS得分与视频时长呈正相关(P < 0.001),内容得分与评论数(P < 0.05)、分享数(P < 0.001)和视频时长(P < 0.001)呈正相关。
即时重播和视频审查作为专业运动员培训过程的一部分,历史悠久。但是,法律发现性是在手术专业中采用基于视频的培训和评估的主要障碍。无缝的视频捕获和编辑也是一个主要障碍。在2000年代初期,大多数手术室都安装了光线照相机;但是,很快指出,使用该技术捕获的视频经常被外科医生的头部阻塞。因此,在手术室中使用光线摄像机时,错过操作最重要的方面并不少见。广泛采用的最低侵入性的经验已大大提高了手术期间手术工作流程的高质量,毫无开动的观点的可用性。因此,对于使用微创技术进行的手术程序,手术视频捕获和编辑已经显着增加。手术视频的可用性增加引发了人们对使用人工智能(AI)来分析外科视频的兴趣。1在2017年,约翰·霍普金斯(Johns Hopkins)的计算机视觉工程师发布了第一个公共数据集,以帮助推动AI潜在使用自动任务识别。数据集包含使用DA Vinci机器人的三个任务的同步视频和运动数据:缝合,针,传递和
尽管近年来,自发性知觉经络反应 (ASMR) 现象在墨西哥显著发展,但当地 YouTube 频道缺乏有效和持续的数字营销策略和战术,这反映在他们的赞助视频中,与最受欢迎的 YouTube ASMR 频道(基本上是英语频道)形成鲜明对比。在对 YouTube 进行详细审查后,本文对这两组进行了比较,并认为,只要进行一些改变,墨西哥 ASMR 创作者就可以从其他国家更受欢迎的创作者使用的营销策略中受益。通过这样做,墨西哥创作者可以乘上新兴的注意力经济浪潮,这种浪潮认为认知是一种可以货币化的商品。对这两组频道的分析发现,与更受欢迎的国际同行相比,墨西哥 ASMR 创作者往往表现出较低的制作质量、对基本营销概念的了解甚少,以及发布频率低于英语视频。这些发现将在覆盖率、相关性和共鸣的营销概念以及注意力经济结构下进行讨论。
本研究探索了使用短暂情感事件(观看情感图片)中的共享神经模式来解码自然体验(观看电影预告片)中的扩展动态情感序列的可行性。28 名参与者观看了国际情感图片系统 (IAPS) 中的图片,并在单独的环节中观看了各种电影预告片。我们首先通过 GLM 分析定位双侧枕叶皮层 (LOC) 对情感图片类别有反应的体素,然后根据他们在观看电影预告片时的反应对 LOC 体素进行受试者间超对齐。超对齐后,我们在情感图片上训练受试者间机器学习分类器,并使用这些分类器解码样本外参与者在图片观看和电影预告片观看期间的情感状态。在参与者中,神经分类器识别图片的效价和唤醒类别,并跟踪观看视频期间自我报告的效价和唤醒。总体而言,神经分类器生成效价和唤醒时间序列,跟踪从单独样本获得的电影预告片的动态评级。我们的发现进一步支持了使用预先训练的神经表征来解码自然体验期间的动态情感反应的可能性。
摘要 - 深度学习的进展使得通过分析视频在智能环境中远程估算心率变得越来越可行。但是,深度学习方法的一个显着局限性是他们对广泛的标记数据集以进行有效培训的广泛依赖。为了解决这个问题,自我监督的学习已成为有前途的途径。在此基础上,我们引入了一种解决方案,该解决方案利用自我监督的对比度学习来估算远程光插曲 - 声学(PPG)和心率监测,从而降低了对标记数据的依赖性并增强性能。我们建议使用3个空间和3个时间扩增来通过对比度框架训练编码器,然后利用编码器的晚期中间嵌入来进行远程PPG和心率估计。我们在两个公开可用数据集上的实验展示了我们对几种相关作品以及监督学习基准的改进方法的改进,因为我们的结果接近了最先进的方法。我们还进行了彻底的实验,以展示使用不同设计选择的效果,例如视频表示方法,在训练阶段中使用的增强和其他选择。我们还证明了我们提出的方法对减少标记数据的监督学习方法的鲁棒性。
我们提供了四个不同的带注释的超声心动图视频,涵盖正常病例、房间隔缺损 (ASD) 病例和肺动脉高压 (PAH) 病例。此数据集已删除有关患者的所有私人信息。医院授权此数据集并获得伦理批准。图 1 显示了四个不同的 ASD 患者示例。已标记异常区域以便于理解。图 2 和图 3 也分别展示了四个不同的 PAH 患者和正常病例示例。对于这三个图,垂直字母表示不同的情况,而横轴是按顺序每 10 帧采样的帧。有关完整的视频可视化,请参阅 supplementary.zip 中的附件以获取更多数据集示例。
在本文中,我们提出了 Skip-Plan,一种用于教学视频中程序规划的压缩动作空间学习方法。当前的程序规划方法都遵循每个时间步的状态-动作对预测并相邻地生成动作。虽然它符合人类的直觉,但这种方法始终难以应对高维状态监督和动作序列的错误积累。在这项工作中,我们将程序规划问题抽象为数学链模型。通过跳过动作链中不确定的节点和边,我们以两种方式将长而复杂的序列函数转换为短而可靠的序列函数。首先,我们跳过所有中间状态监督,只关注动作预测。其次,我们通过跳过不可靠的中间动作将相对较长的链分解为多个短的子链。通过这种方式,我们的模型在压缩动作空间中探索动作序列内各种可靠的子关系。大量实验表明,Skip-Plan 在程序规划的 CrossTask 和 COIN 基准测试中实现了最先进的性能。
