DIU offers $100M in prizes for voice-controlled AI-enabled drone swarm ‘orchestrator’
五角大楼希望任何军人都能够用简单的英语下达命令,而不是需要经过专门训练的人员远程驾驶每架无人机或机器人船。
Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类法定义了三个正交轴:正在测量的评估方面、尝试任务所需的模型能力以及执行任务或协议要求......
Zero trust and AI: Modernising Voice Communication
随着空中交通管理 (ATM) 的发展,空中导航服务提供商 (ANSP) 面临着对安全、创新和适应性强的语音通信解决方案日益增长的需求。作为一家全球性公司,Frequentis 正在引领这一领域 [...]
Pennsylvania principal faces termination after leaving antisemitic voicemail message
菲利普·莱迪 (Philip Leddy) 是下圭内斯小学 (Lower Gwynedd Elementary) 的校长,在一封发给一名学生父亲的反犹太主义语音邮件浮出水面后,他面临被解雇的危险。该信息包括“犹太人营”和“犹太人金钱”等贬义词。自 2023 年起担任校长的莱迪已被休假,并计划就其解雇问题举行听证会。
Data-Centric Lessons To Improve Speech-Language Pretraining
口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于三个......
Building a voice-driven AWS assistant with Amazon Nova Sonic
在这篇文章中,我们将探讨如何使用 Amazon Nova Sonic 进行语音处理并使用 Strands Agent 进行多代理编排来构建复杂的语音驱动 AWS 操作助手。该解决方案展示了自然语言语音交互如何改变云运营,使 AWS 服务更易于访问且运营更高效。
Principled Coarse-Grained Acceptance for Speculative Decoding in Speech
推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...
Lip-syncing robot watches your face to speak like you
当谈到超人般的《西部世界》风格的机器人时,它们最具标志性的特征之一就是嘴唇的移动与所说的话完美同步。一个新的机器人不仅具有该功能,而且实际上可以训练自己像人一样说话。继续阅读类别:机器人、技术标签:哥伦比亚大学、人工智能、语音、面部
Video Friday: Bipedal Robot Stops Itself From Falling
Video Friday 是您每周精选的精彩机器人视频,由您在 IEEE Spectrum 机器人领域的朋友收集。我们还发布了未来几个月即将举行的机器人活动的每周日历。请将您的活动发送给我们以供收录。ICRA 2026:2026 年 6 月 1-5 日,维也纳享受今天的视频!这是我见过的最好的事情之一。 [动能智能机器实验室]经过多年积极测试并与美国陆军和海军陆战队合作伙伴一起突破极限,具有弹性的复杂环境中的机器人自主(RACER)项目即将结束。但 RACER 的影响将远远超出该计划的正式结束日期,留下强大的自主能力遗产,准备好改变军事行动并激发新一波私营部门投资。[DARPA]迄今为止最漂亮
A Real-Life Robot Learned to Lip-Sync Thanks to AI
哥伦比亚工程公司开发了一种灵活的机器人面部,可以学习嘴唇运动以实现逼真的语音同步,提高人形机器人的社交互动能力,同时解决潜在的道德问题。
This smart home breakthrough lets you control appliances without Wi-Fi (and its security risks)
配备艾默生 SmartVoice 的设备不需要 Wi-Fi 或集线器;相反,他们利用设备上的语音控制。
机载连接是安全和效率的基本要素。作者:香农·福雷斯特 (Shannon Forrest) 特约作家 你不知道自己有多依赖某样东西,直到它不存在为止。如今,互联互通在航空领域无处不在。我们将其广义地定义为对万维网文本、语音和数据流的持续且不间断的访问。 [...]
Robots that can do laundry and more, plus unrolling laptops: the standout tech from CES 2026
可以爬楼梯的机器人吸尘器和为黑莓爱好者设计的设备今年将充满可以叠衣服、拾起物体和爬楼梯的机器人、可以通过语音命令打开的冰箱、可以通过电动铰链跟随你在房间里走动的屏幕笔记本电脑以及黑莓手机的重新设计。这些是本周在拉斯维加斯举行的年度 CES 科技展上的预测。这项规模庞大的活动旨在展示初创企业和大品牌开发的尖端技术。继续阅读...
Garmin inReach Mini 3 Plus: Why Every Pilot Should Carry a Satellite Communicator
飞行超出手机信号覆盖范围?新款 Garmin inReach Mini 3 Plus 通过卫星语音消息、照片共享和全球 SOS 连接为飞行员提供强大的安全优势。在这篇深入的评论中,我们详细分析了新功能、它与 Mini 2 和 ZOLEO 的比较,以及为什么它属于每个飞行员的飞行包。更多
Steel, Sensors and Silicon: How Caterpillar Is Bringing Edge AI to the Jobsite
在 CES 上,Caterpillar 展示了如何集成 NVIDIA 技术(从 NVIDIA Jetson Thor 到语音模型)来改变世界重工业。
Safran strikes Skyted deal for quieter phone calls
赛峰乘客创新公司 (Safran Passenger Innovations) 与语音通信技术初创公司 Skyted 签署了一项协议,将静音通话技术集成到 SPI 的 RAVE 机上娱乐 (IFE) 系统中。赛峰集团 (Safran Passenger Innovations) 与 Skyted 达成更安静通话协议的消息首先出现在航空商业新闻 (Aviation Business News) 上。