笔记本电脑级解决方案的一个关键用途是利用先进的视频技术实现态势感知。L-3 的 VideoScout 系列可互操作视频开发、情报和管理系统就是其中的一个例子(图 1)。这些系统旨在捕获、处理和利用来自各种有人和无人机载平台、车辆、船舶和基于网络的视频流的视频和遥测数据。一旦收到数据,VideoScout 便允许用户创建衍生视频文件和静态图像,以及注释、地理参考、存储和与战场上的其他人共享生成的智能视频。VideoScout 可帮助前线战术家和情报分析师快速将大量视频数据转换为简洁、易于共享的视频情报,以改进任务规划、执行和任务后分析。
哥伦比亚大学工程学院的教师在开发一些最成功的消费电子产品发明方面发挥了重要作用,同时也为高质量音频和视频数据的存储和传输建立了许多被广泛接受的全球标准。哥伦比亚大学是唯一一所积极参与各种标准专利池的大学,包括 AVC(高级视频编码),这是音频/视频压缩的世界标准,现在是最常用的高清格式之一,最常用于流媒体;还有 ATSC,这是高级电视系统委员会为数字电视传输制定的标准。它现在是美国数据和高清音频视频媒体的录制和检索标准。除了这些标准之外,哥伦比亚大学工程学院的教师还在模块化相机、碳捕获、
介绍了一种能够预测伞兵部署的计算机模拟。部署过程分为三个阶段,使用不同的理论方法进行分析。使用有限元方法模拟降落伞在空气动力载荷下的弯曲,这种弯曲发生在从部署袋中提取过程中。伞盖充气采用半经验 Pflanz-Ludtke 方法建模。获得的结果与实际伞兵跳跃的照片和视频数据非常吻合。为了在 A400M 周围的非均匀流场内模拟部署,提出了一种利用风洞测试和 CFD 计算数据的方法。相应的模拟用于分析“交叉”的风险——这是一种潜在的致命情况,伞兵被拉向飞机后方的中心线。
本文提出了一种使用YOLO算法估算车速的新方法。通过分析车辆沿连续线的运动,系统可以计算车辆的移动速度以及覆盖已知距离所需的时间。与基于物理数据的传统方法不同,此方法仅使用视频数据,使其无创和可用作为现有监视摄像机。Yolo附加使用或复杂安装。与传统方法相比,这种方法侧重于诸如准确性,适用性和及时性等因素。通过成功的实验,我们证明了基于YOLO的系统可以高精度估算车辆速度,并为自动驾驶汽车控制和交通管理提供了良好的解决方案。该计划还提供了一个机会,可以通过为全球交通监控提供成本效益和大规模的解决方案来改变交通监控。
摘要 本文介绍了一种新颖的人机界面,它基于舌头和嘴唇的运动,使用来自市售相机的视频数据。提取运动的大小和方向,可用于设置光标动作或进行其他相关活动。运动检测基于卷积神经网络。ASSISLT 系统 [1] 展示了所提解决方案的适用性,该系统旨在支持患有先天性和后天性运动性言语障碍的成人和儿童的言语治疗。该系统侧重于使用改善舌头运动和发音的练习进行个性化治疗。该系统提供了一组可调节的练习,使用增强现实来激励练习者的正确表现。自动评估治疗动作的表现使治疗师能够客观地跟踪治疗进展。
本研究的目的是创建一种工具,使音乐家不仅可以纠正他们演奏的音乐,还可以纠正他们演奏音乐的姿势。这既可以提高他们的音乐能力,又可以减少因不正确的姿势造成的伤害。评估器以应用程序的形式呈现,记录弦乐音乐家演奏乐器的过程;检测节奏、语调、力度和姿势的偏差;并实时提供个性化的反馈来纠正这些偏差。通过将音乐家的音频数据与解析他们正在演奏的歌曲的乐谱生成的“预期输出”进行比较,可以检测到音频偏差。这是通过使用 Librosa 和 Music21 实现的,这两个音乐处理库是为 Python 编程语言编写的。然后定期实时生成新的乐谱,其中不正确、尖锐、平坦和走调的音符被染上单独的颜色。利用录制的视频数据,身体姿势
在运营阶段部署视觉 AI 解决方案意味着视觉系统或视觉传感器接收输入图像或视频,并生成元数据,例如人数或汽车数量,或与特定对象相关的事件(例如产品识别)。在此阶段,PerCV.ai 通过两种方式确保隐私,首先是使用边缘 AI,其次是尽可能使用视觉传感器设计。边缘 AI 意味着所有视频和图像数据都在视觉传感器上实时本地处理,元数据在边缘设备提取,只有这些元数据可以传递到云或其他基础设施。在运营阶段,边缘 AI 不会存储任何图像或视频数据。这是 PerCV.ai 的强项,因为我们可以在各种边缘平台中部署视觉 AI 解决方案,从强大的 GPU 和 VPU 到微型 MCU 和 DSP。更多详细信息可在 Irida Labs 网站的合作伙伴部分找到。
更直观的输入设备用于游戏交互,凝视是一种快速而自然的输入方法,也可以被利用[18]。Jonsson 比较了眼球和鼠标控制作为两个三维 (3D) 计算机游戏的输入,发现凝视控制更准确,游戏体验更令人愉快和投入 [3]。Smith 和 Graham 研究了几种游戏类型的眼球输入,主要是 3D 导航。他们的结果表明,参与者在使用眼动仪作为游戏输入设备时感觉更加沉浸 [4]。Kenny 等人。开发了一款第一人称射击 (FPS) 游戏,可同时记录眼动追踪数据、视频数据和游戏内部数据。他们发现玩家大部分时间都注视着屏幕中心 [5]。这些结果提出了将凝视集成到现代游戏应用中的前景。
多媒体评估基准计划。类似于以前的版本,我们使用两个数据集的视频数据和符号,即Memento10k和VideoMEM数据集。鉴于在预测任务的先前迭代中观察到的一致性性能高原,其中要求参与者在同一数据集上训练和测试,我们决定从今年的竞争中删除预测任务。这种修改使参与者有机会将他们的努力重定向到更具挑战性的任务。因此,在此版本中,我们提出了两个任务:概括任务,其中要求参与者在一个数据集中训练并在其他数据集和EEG任务上测试其结果,其中要求参与者使用与EEG相关的数据来预测记忆性。在本文中,我们介绍了2023年预测视频记忆力任务的主要方面,探讨了提出的任务,数据集,评估方法和指标以及参与者的要求。