从脑电信号进行语音解码是一项具有挑战性的任务,其中大脑活动被建模以估计声学刺激的显著特征。我们提出了 FESDE,一种从脑电信号进行完全端到端语音解码的新颖框架。我们的方法旨在根据脑电信号直接重建所听语音波形,其中不需要中间声学特征处理步骤。所提出的方法由脑电模块、语音模块和连接器组成。脑电模块学习更好地表示脑电信号,而语音模块从模型表示中生成语音波形。连接器学习连接脑电和语音的潜在空间分布。所提出的框架既简单又高效,允许单步推理,并且在客观指标上优于以前的工作。进行了细粒度的音素分析以揭示语音解码的模型特征。源代码可在此处获取:github.com/lee-jhwn/fesde。索引词:语音解码、语音合成、脑电图、神经活动、脑信号
端到端的自主驾驶引起了广泛的关注。当前的最终方法在很大程度上取决于感知任务(例如检测,跟踪和地图细分)的监督,以帮助学习场景表示。但是,这些方法需要广泛的注释,从而阻碍数据量表。为了应对这一挑战,我们提出了一种新颖的自我监督方法,以增强端到端驾驶,而无需昂贵的标签。具体来说,我们的框架法使用潜在世界模型根据预测的自我动作和当前框架的潜在特征来预测未来的潜在特征。预测的潜在功能由将来实际观察到的功能监督。此监督共同优化了潜在的特征学习和动作预测,从而大大提高了驾驶性能。结果,我们的APARCH在开环和闭环基准测试中都实现了最先进的性能,而无需昂贵的注释。
摘要:本文介绍了一种结合硬件和软件的定制系统,该系统可感知表演者身体因肌肉收缩而产生的生理信号,并将其转换为计算机合成的声音。我们的目标是在该领域研究历史的基础上开发一个完整的集成系统,供非专业音乐家使用。我们描述了 Embodied AudioVisual 交互肌电图,这是一个端到端系统,涵盖音乐家身体上的可穿戴传感、基于定制微控制器的生物信号采集硬件、基于机器学习的手势到声音映射中间件和基于软件的粒度合成声音输出。一种新颖的硬件设计以最少的模拟预处理将来自肌肉的肌电图信号数字化,并在音频信号处理链中将其作为类兼容的音频和无线 MIDI 接口处理。映射层在强化学习配置中实现了交互式机器学习工作流程,并可以将手势特征映射到多维信息空间中的听觉元数据。该系统调整了现有的机器学习和合成模块,使其与硬件配合使用,形成了一个集成的端到端系统。我们通过一系列公开演讲和一系列音乐从业者的音乐会表演探索了其作为数字乐器的潜力。
摘要:本文介绍了一种结合硬件和软件的定制系统,该系统可感知表演者身体因肌肉收缩而产生的生理信号,并将其转换为计算机合成的声音。我们的目标是在该领域研究历史的基础上开发一个完整的集成系统,供非专业音乐家使用。我们描述了 Embodied AudioVisual 交互肌电图,这是一个端到端系统,涵盖音乐家身体上的可穿戴传感、基于定制微控制器的生物信号采集硬件、基于机器学习的手势到声音映射中间件和基于软件的粒度合成声音输出。一种新颖的硬件设计以最少的模拟预处理将来自肌肉的肌电图信号数字化,并在音频信号处理链中将其作为类兼容的音频和无线 MIDI 接口处理。映射层在强化学习配置中实现了交互式机器学习工作流程,并可以将手势特征映射到多维信息空间中的听觉元数据。该系统调整了现有的机器学习和合成模块,使其与硬件配合使用,形成了一个集成的端到端系统。我们通过一系列公开演讲和一系列音乐从业者的音乐会表演探索了其作为数字乐器的潜力。
基于远程生理信号的抽象心率测量可能会大大促进日常生活中的健康监测。但是,生理信号的基础标签很昂贵且难以收集。在本文中,我们提出了一个对比的自我监督学习框架,以通过在预训练阶段利用没有地面真相标签的周期性信号先验来提取歧视性远程生理特征。具体来说,构建排名损失和对比度学习损失,以通过重新采样视频剪辑来提取知识。此外,数据增强和集合学习策略旨在微调预训练的模型并融合结果以改善心率测量。我们的最终解决方案实现了3𝑟𝑑基于远程远程生理信号传感(REPSS)挑战的轨道1的位置。
自主驾驶技术一直在迅速发展。主流体系结构涉及将整个管道分为几种不同的功能,例如感知,本地化和映射,预测,计划和控制。这个过程被认为是绩效,安全性和解释性之间的不错的权衡。但是,尽管驾驶员辅助系统(L2至L3)开始占据很大的市场份额,但高级(L4+)自主驾驶仍然落后于大规模生产。背后有几个原因:复杂的体系结构:当前的主流溶液具有二十次甚至更多模块。由于计算功率限制,单个模块的性能上限不高;系统中的内部接口太多,很难传输和优化。本地和整体优化目标有时需要冲突,因此很难观察到绩效的改进。高成本:随着模块数量的增加,研发/维护/人力成本飙升。重复发明,
Google 的各个团队都在努力将这些研究成果应用并落实到我们的模型、产品和风险管理中。例如,2019 年的论文“模型报告的模型卡”为人工智能模型定义了“营养标签”,该标签随后在 Google 和整个行业中得到采用。2023 年的论文“算法系统的社会技术危害:确定危害减少的分类法”提出了一种人工智能危害分类法,为我们发布前的风险评估提供了参考(见第 18 页)。此外,2023 年的一篇 Google DeepMind 论文研究了未来更强大的通用模型可能带来的新风险(例如网络安全威胁),并提出了一种用于评估模型抵御这些风险的预警系统方法,该论文正在用于为负责任的模型训练、部署和安全决策提供参考。
对端到端高清地图的回顾重新分配驾驶时间,减少能源浪费。 但是,实现4级和5级自主驾驶仍然对学术界和工业界仍然是一个重大挑战。 在自主驾驶的各种模块中,高清(HD)地图已成为一个关键组件,因为它们在地图元素中的高精度,可以准确定位,场景解释,导航,车辆控制,车辆控制和运动预测周围物体的轨迹。 几个地图提供商,包括Tomtom,Waymo和Nvidia,为其特定目的创建高清地图。 但是,大多数高清地图数据集并非公开可用于研究HD MAP生成的当前趋势。 此外,有关HD MAP生成的最新调查论文倾向于仅关注特定方面,例如道路拓扑或边界提取,而不是考虑总体端到端HD MAP生成过程。 因此,我们从高清图的简短定义,标准和功能开始,然后探索不同类型的HD地图,包括离线和在线变体,突出了它们各自的优势和缺点。 1。 简介对端到端高清地图的回顾重新分配驾驶时间,减少能源浪费。但是,实现4级和5级自主驾驶仍然对学术界和工业界仍然是一个重大挑战。在自主驾驶的各种模块中,高清(HD)地图已成为一个关键组件,因为它们在地图元素中的高精度,可以准确定位,场景解释,导航,车辆控制,车辆控制和运动预测周围物体的轨迹。几个地图提供商,包括Tomtom,Waymo和Nvidia,为其特定目的创建高清地图。但是,大多数高清地图数据集并非公开可用于研究HD MAP生成的当前趋势。此外,有关HD MAP生成的最新调查论文倾向于仅关注特定方面,例如道路拓扑或边界提取,而不是考虑总体端到端HD MAP生成过程。因此,我们从高清图的简短定义,标准和功能开始,然后探索不同类型的HD地图,包括离线和在线变体,突出了它们各自的优势和缺点。1。简介最后,我们将讨论最新的端到端HD MAP生成体系结构,以及各种类型的开源HD地图数据集并比较其性能。
摘要 - 挖掘机对于诸如建设和采矿等各种任务至关重要,而自主挖掘机系统可以提高安全性和效率,解决劳动力短缺并改善人类的工作条件。与现有的模块化方法不同,本文介绍了精确的末端自动挖掘机系统,该系统处理原始的LIDAR,相机数据和关节位置,以直接控制挖掘机阀。利用具有变压器(ACT)体系结构的动作块,精确地采用模仿学习来从多模式传感器中获取观测作为输入并生成可行的序列。在我们的实验中,我们基于捕获的现实世界数据来构建一个模拟器,以模拟挖掘机阀态与关节速度之间的关系。有了一些人类经营的演示数据轨迹,精确证明了完成不同发掘任务的能力,包括通过模拟器验证中的模仿学习到达,挖掘和倾倒。据我们所知,精确代表了通过模仿学习方法以最少的人类示范集来构建端到端自主挖掘机系统的第一个实例。有关此工作的视频可以在https://youtu.be/nmzr rf-aek上访问。
摘要:近年来端到端学习的图像压缩编解码器显着出现。这些编解码器表现出比常规方法的优越性,在支持新的失真损失的同时,展示了各种数据域之间的显着灵活性和适应性。尽管诸如计算复杂性之类的挑战,但由于其非常合适的内部表示,学习的图像压缩方法与基于学习的数据处理和分析管道固有地保持一致。机器视频编码的概念引起了学术研究人员和行业从业人员的极大关注。这个概念反映了将数据压缩与计算机视觉应用程序集成的日益增长的需求。根据这些发展,我们提出了一项全面的调查和综述,对有损图像压缩方法。此外,我们还提供了两个著名国际标准的简明概述,即机器和JPEG AI的MPEG视频编码。这些标准旨在弥合数据压缩和计算机视觉之间的差距,以适应实际行业用例。