John O’Callaghan,NTSB 摘要 模拟是 NTSB 用于了解事故期间控制飞机运动的物理原理的工具之一。如今,NTSB 的工程桌面模拟程序基于 MATLAB,并包括一个“数学飞行员”,可以计算一组飞行控制和油门输入,以匹配给定的飞行轨迹(例如,由记录的雷达或 GNSS 数据确定)。描述飞机的数学模型必须从制造商处获得或以其他方式估算。此工具已用于重现和分析最近几起通用航空事故的记录飞行路径。但是,NTSB 也会在适当的情况下使用其他类型的模拟。本文将讨论美国国家运输安全委员会使用的三个不同级别的模拟:1) 全飞行飞行员训练模拟器,2) 没有飞行员界面的桌面工程模拟,以及 3) 用作事故数据“媒体播放器”的模拟器视觉效果和驾驶舱。这些不同层次将通过以下案例研究进一步说明:2009 年“哈德逊奇迹”在哈德逊河上迫降事件(US1549)、2001 年美国航空 587 号航班在纽约发生的事故(AA587)、2017 年皮拉图斯 PC-12 空间定向障碍事故以及 2015 年 F-16 战斗机与赛斯纳 150 空中相撞。在这些事件的调查中使用了以下模拟器:● 使用空客 A320 全飞行工程模拟器评估 US1549 飞行员可用的着陆选项,该航班在两台发动机因鸟击而失去推力后在哈德逊河迫降。此外,模拟器还用于评估实现规定的迫降着陆标准的操作可行性。● 将空客 A300 全飞行模拟器所基于的数学空气动力学和推进模型整合到桌面工程模拟器(无飞行员界面)中,以分析 AAL587 飞行数据记录器上记录的飞机运动。这项分析用于确定飞行员飞行控制输入和外部大气扰动(由尾流穿透引起)对飞机运动和载荷的相对重要性。此外,NASA Ames“垂直运动模拟器”(VMS)用于重现 AA587 场景,复制事件期间的视觉场景、驾驶舱控制运动、仪表显示、载荷系数(在限制范围内)和声音(包括驾驶舱语音记录器音频)。VMS 的这种“反向驱动”使调查人员能够评估飞机加速度可能如何影响副驾驶对方向舵踏板和其他飞行控制装置的反应。● 在桌面工程模拟器中使用 Pilatus PC-12 的仿真模型来计算一组飞行控制和油门输入,从而匹配记录的雷达数据。● 最后,对于空中相撞的情况,使用 Microsoft Flight Simulator X 描绘每架飞机驾驶舱的视觉场景,包括从每位飞行员的角度看到的冲突飞机的外观。该动画使调查人员能够确定每架飞机在碰撞前几分钟的可见性,并有助于说明“看见并避免”碰撞避免概念的局限性,以及驾驶舱显示交通信息的好处。
视频到音乐的一代需要暂时的本地高质量聆听体验和全球视频声音签名。虽然最近的音乐发电模型通过先进的音频编解码器在前者中脱颖而出,但视频声学签名的探索已被限制在特定的视觉场景中。相反,我们的研究面临着直接从配对的Music和视频中的视频和音乐之间学习的挑战,而没有明确建模域特异性的节奏或语义关系。我们提出了V2meow,这是一种视频到音乐的生成系统,能够使用多阶段自动回归模型为各种视频类型提供高质量的音乐音频。在5k小时的音乐音频剪辑中培训了与野外音乐视频开采的视频框架配对,V2meow以零拍的方式进行评估时,与以前的域特异性型号进行了竞争。它仅通过根据预先训练的通用 - 目的视觉特征进行调节,从视频帧中提取的预先训练的通用视觉特征来综合高保真音乐audio波形,并通过文本提示通过可选的样式控制。通过质量和定量评估,我们证明了我们的模型在视觉声明通信和音频质量方面优于各种现有音乐生成系统。音乐样本可在tinyurl.com/v2meow上找到。
摘要 — 在虚拟环境中,视觉和触觉场景之间的空间差异会对用户的表现和体验产生负面影响。本文展示了在具有接触式触觉显示器的触觉增强虚拟系统中,由于姿势差异而导致的空间差异是如何发生的。为了缓解这个问题,我们提出了视觉引导,这是一种动态操纵视觉场景以补偿差异的算法。在涉及按钮按下任务和±150 mm 和±40 ◦ 之间的空间差异的一对研究中验证了该算法的有效性。实验结果表明,使用该技术的差异试验产生的错误率和速度峰值数量(代表目标运动的数量)与零空间差异试验中达到的相当。此结果也是在无需专门的适应或训练过程的情况下实现的,从而确保用户可以立即使用该算法。一对后续研究还表明,该算法对模拟器晕动症的主观评分影响不大,这表明偶尔使用该算法不会对用户对虚拟环境的体验产生负面影响。我们相信,本文提出的视觉引导算法可用于在结合遭遇式触觉显示的各种触觉训练应用中创造更有用、更引人注目的体验。
摘要 - 在视觉场景理解的领域,深层神经网络在各种核心任务(例如细分,跟踪和检测)方面取得了令人印象深刻的进步。但是,大多数方法都基于封闭式假设,这意味着该模型只能识别培训集中存在的预定类别。最近,由于视觉语言预训练的快速进步,开发了开放的词汇环境。这些新方法旨在定位和识别带注释的标签空间以外的类别。与弱监督和零拍的设置相比,开放的词汇方法更一般,实用和有效。本文彻底回顾了开放式学习,总结和分析了该领域的最新发展。特别是,我们首先将开放性词汇学习与类似的概念并置,例如零拍学习,开放式识别和分布外检测。随后,我们检查了分割和检测领域内的几个相关任务,涵盖了长尾问题,很少射击和零照片设置。作为我们方法调查的基础,我们首先阐明了在近距离场景中的检测和分割的基本原理。接下来,我们研究了采用开放词汇学习的各种环境,这些环境指出了反复出现的设计元素和中心主题。这是对常用数据集和基准中最新检测和分割方法的比较分析。我们的
我们提出了一个场景表示形式,我们称之为触觉的辐射场(TARF),它将视觉和触摸带入共享的3D空间。此表示形式可用于估计场景中给定3D位置的视觉和触觉信号。我们从一系列照片和稀疏采样触摸探针中捕获了场景的tarf。我们的方法利用了两个见解:(i)基于常见的触摸传感器建立在普通摄像机上,因此可以使用多视图几何形状中的方法对图像进行注册,并且(ii)在视觉和结构上相似的场景区域具有相同的触觉效果。我们使用这些见解将触摸信号注册到捕获的视觉场景中,并训练有条件的扩散模型,该模型带有从神经辐射场呈现的RGB-D图像,生成其相应的触觉信号。为了评估我们的方法,我们收集了一个TARF的数据集。此数据集比预先持有的现实世界数据集包含更多的触摸样本,并且为每个捕获的触摸信号提供了空间对齐的视觉信号。我们揭示了跨模式生成模型的准确性以及在下游任务上捕获的视觉效果数据的实用性。项目页面:https:// dou- yiming.github.io/tarf。
生成AI(Genai)系统使用户能够快速生成高质量的内容。大语模型(LLM)的最新进展(Radford等人,2019年; Chowdhery等。,2022;布朗等人。,2020年; Touvron等。,2023; Bubeck等。,2023; Schulman等。,2022; Openai,2023年;拟人化,2023年),视觉语言模型(VLMS)(Radford等人,2021;刘等。,2023a; Driess等。,2023;团队,2023年)和扩散模型(Ramesh等人,2021; Song等。,2020年;杨等。,2023年)彻底改变了Genai的能力。开放的Web应用程序安全项目(OWASP)已编制了对LLM应用程序的十大漏洞和威胁的详细列表(Owasp,2023)。Genai模型旨在了解和生成具有超过传统机器学习系统的自主权,提供新颖的能力来理解视觉场景,生成文本,代码,图像以及与人类和互联网服务互动的新型功能。此功能可以实现更广泛的应用程序,并以这种方式引入了这些新型Genai集成应用所特有的新安全挑战。在本文中,我们讨论了该领域的挑战和机遇,从本节开始,从安全风险开始,包括Genai模型如何成为攻击的目标,一个无意中损害安全性的“傻瓜”,或者是坏演员攻击他人的工具。
深度学习的最新进展主要基于“大数据用于小任务”范式,在该范式下,大量数据用于训练单个狭窄任务的分类器。在本文中,我们呼吁进行一次彻底颠覆这一范式的转变。具体而言,我们提出了“小数据用于大任务”范式,其中单个人工智能 (AI) 系统面临发展“常识”的挑战,使其能够用很少的训练数据解决各种任务。我们通过回顾综合了机器和人类视觉方面的最新突破的常识模型来说明这一新范式的潜在力量。我们将功能性、物理性、意图、因果关系和效用 (FPICU) 确定为具有类似人类常识的认知 AI 的五个核心领域。当将 FPICU 视为一个统一的概念时,它关注的是“为什么”和“如何”的问题,超越了理解视觉的主流“什么”和“哪里”框架。它们在像素方面是不可见的,但却推动了视觉场景的创建、维护和发展。因此,我们将它们称为视觉的“暗物质”。正如我们的宇宙不能仅通过研究可观测物质来理解一样,我们认为,如果不研究 FPICU,就无法理解视觉。我们展示了如何观察和应用 FPICU 来解决各种具有挑战性的任务,包括工具使用、规划、效用推理和社会学习,从而展示了这种观点在开发具有人类常识的认知 AI 系统方面的强大作用。总之,我们认为下一代 AI 必须采用“暗”的人类常识来解决新任务。
Adolph, KE 和 Franchak, JM (2017)。运动行为的发展。威利跨学科评论:认知科学,8 (1-2),e1430。https://doi.org/10.1002/wcs.1430 Allopenna, PD、Magnuson, JS 和 Tanenhaus, MK (1998)。利用眼球运动追踪口语单词识别的时间过程:连续映射模型的证据。记忆与语言杂志,38 (4),419–439。https://doi.org/10.1006/jmla.1997.2558 Anderson,EM、Seemiller,ES 和 Smith,LB(2022)。以自我为中心的视觉场景及其由父母和婴儿创造。认知,229,105256。https://doi.org/10.1016/j.cognition.2022.105256 Baluch, F., & Itti, L. (2011)。自上而下的注意力机制。神经科学趋势,34 (4),210–224。https://doi.org/10.1016/j.tins.2011.02。003 Bates, D., Mächler, M., Bolker, B., & Walker, S. (2014)。使用 lme4 拟合线性混合效应模型。arXiv 预印本 arXiv:1406.5823。Bechtel, W., & Bich, L. (2021)。基础认知:生物学中的异质控制机制。 《皇家学会哲学学报 B》,376 (1820),20190751。https://doi.org/10.1098/rstb.2019.0751 Berger, SE、Harbourne, RT 和 Guallpa Lliguichuzhca, CL (2019)。静坐并注意!发育正常和发育迟缓的婴儿的躯干运动和注意力资源。《儿科物理和职业治疗》,39 (1),48–59。https://doi.org/10.1080/01942638.2018。1432005
摘要 伴随前庭功能障碍的失忆症状表明前庭和视觉记忆系统之间存在功能关系。然而,人们对其背后的认知过程知之甚少。作为起点,我们寻找一种跨模态相互作用的证据,这种相互作用通常在其他感觉模态之间观察到,在这种相互作用中,如果先前将目标(在本例中为视觉)与来自另一个感觉域(在本例中为前庭)的独特、时间上一致的刺激相结合,则更容易识别目标。参与者首先执行视觉检测任务,其中刺激出现在计算机网格内的随机位置。参与者不知道,一种特定刺激的开始伴随着短暂的亚感觉脉冲电前庭刺激 (GVS)。在两个视觉搜索实验中,当在先前检测任务中出现 GVS 配对视觉刺激的网格位置呈现时,旧目标和新目标都能更快地被识别。这种位置优势似乎是基于相对而非绝对空间坐标,因为当搜索网格旋转 90° 时,这种效果仍然有效。这些发现共同表明,当个体回到熟悉的视觉场景(此处为 2D 网格)时,如果目标出现在之前与独特的、与任务无关的前庭线索相关联的位置,则视觉判断会得到促进。这种多感官相互作用的新案例对于理解前庭信号如何影响认知过程具有更广泛的意义,并有助于限制 GVS 日益增长的治疗应用。
抽象对象检测是计算机视觉中广泛研究的任务。当前方法通常专注于从适当的观点捕获的图像。但是,从现实世界中的不同观点观察到的对象之间存在很大的差异。动态对象检测(DOD)方法会自动调整视觉场景中的相机视点,以依次查找最佳观点。当前,DOD任务通常被建模为顺序决策问题,并使用强化学习方法解决。现有方法面临稀疏奖励和训练不稳定的挑战。为了解决这些问题,我们分别提出了一个单步奖励功能和一个轻量级的网络。提供及时反馈的单步奖励功能为DOD任务提供了有效的培训过程。具有很少参数的轻量级网络可以确保训练过程的稳定性。为了评估我们方法的有效性,我们开发了一个基于UE4的仿真数据集,该数据集由1800个培训图像和450张测试图像组成。数据集包括五个对象类别:货车,汽车,拖车,盒子卡车和SUV。实验表明,我们的方法在模拟数据集上的表现优于SOTA对象检测器。具体而言,使用Yolov8对象检测器时,平均精度(AP)从89.1%提高到96.0%。