语音关键词检索结果

缩小法学硕士文本和语音理解之间的差距

Closing the Gap Between Text and Speech Understanding in LLMs

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……

在电话上进行伪装:如何判断语音通话是否为 AI

Faking it on the phone: How to tell if a voice call is AI or not

你能相信你的耳朵吗?越来越多的人的答案是否定的。以下是您的企业面临的风险,以及如何击败深度造假者。

新研究揭示了大脑如何将语音分离为单词

New research reveals how the brain separates speech into words

除非您了解该语言,否则语音会变得模糊;科学家发现了区分单词的大脑信号

使用 Amazon Nova Sonic 构建实时语音助手与级联架构的比较

Building real-time voice assistants with Amazon Nova Sonic compared to cascading architectures

Amazon Nova Sonic 通过双向流接口提供实时、类人的语音对话。在本文中,您将了解 Amazon Nova Sonic 如何解决级联方法所面临的一些挑战、简化语音 AI 代理的构建并提供自然的对话功能。我们还提供有关何时选择每种方法的指导,以帮助您为语音 AI 项目做出明智的决策。

VSSFlow:通过联合学习统一视频条件声音和语音生成

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

视频条件声音和语音生成,包括视频转声音 (V2S) 和视觉文本转语音 (VisualTTS) 任务,通常被视为单独的任务,将它们统一到单一框架内的探索有限。最近统一 V2S 和 VisualTTS 的尝试在处理不同的条件类型(例如异构视频和转录条件)方面面临挑战,并且需要复杂的训练阶段。统一这两项任务仍然是一个悬而未决的问题。为了弥补这一差距,我们推出了 VSSFlow,它将 V2S 和 VisualTTS 任务无缝集成到一个统一的……

语音推测解码的原则性粗粒度接受

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...

多模态 AI 指南:视觉、语音、文本及其他

The Multimodal AI Guide: Vision, Voice, Text, and Beyond

人工智能系统现在可以看到图像、听到语音、处理视频、理解原始形式的信息。

NASA 为 Artemis II 任务做好准备,人工智能语音给中风患者带来希望,研究人员发现有史以来最古老的洞穴艺术

NASA readies for Artemis II mission, AI-powered speech gives stroke patients hope, and researchers discover oldest cave art ever

美国宇航局阿耳忒弥斯二号的发射进展如何,科学家如何利用人工智能帮助中风患者说话,以及印度尼西亚洞穴艺术的发现如何讲述早期人类迁徙

IEEE 认知和发展系统学报,第 18 卷,第 1 期,2026 年 2 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 18, Issue 1, February 2026

1) 社论:主编的 2026 年新年致辞作者:H. Tang 页数:2 - 22) 客座社论:可穿戴机器人的具身智能特刊作者:H. Su, H. Xia, M. A. Laribi, H. Su, S. Alfayad 页数:3 - 53) A Systematic Review of Spiking Neural Networks for Wearable Robotics康复可穿戴机器人中的人机交互作者:X. 张,Y. 曹,J. 黄,J. 刘,Z. -Q。张页数: 6 - 214) 膝踝假肢的注视引导人体运动意图识别与意志控制方法作者: X. Chen, Z. Chen, Y. Wang,

从简单的阅读观到基础技能的综合观

From the Simple View of Reading to an Integrated View of Foundational Skills

从简单的阅读观到基础技能的综合观 0vpthomasFebruary 12, 2026 我们的客座作者 Rafely Palacios 是湾区的一位双语一年级教师,专门从事多语言学习者的阅读教学。如果您是一名教师,您可能遇到过简单的阅读观 (SVR)。该模型表明,阅读理解由两个基本组成部分组成:解码(单词识别)和语言理解(理解口语)。在许多美国课堂上,这些组成部分是在单独的教学模块中教授的:用于解码的语音,以及随后用于理解或口语的不同时间。但这种分离是否会对学生作为阅读者的发展产生意想不到的影响?在阿尔伯特·尚克研究所最近发​​表的一篇论文《Elbow Room》中,玛丽安·沃尔夫博士挑战了对

语言学家测试了 191 条通用语法规则。只有三分之一幸存

Linguists Tested 191 Universal Grammar Rules. Only One-Third Survived

一项新的研究发现,三分之一的语法“通用”经受住了严格的测试。尽管世界上的语言在语音系统、词汇和结构方面存在巨大差异,但研究人员长期以来观察到某些语法模式在不同文化中反复出现。一项新的研究发现,许多这些重复出现的特征可能不仅仅是巧合。 [...]

如何创建糖果 AI 女朋友

How to Create Candy AI Grirlfriend

其运作方式如下:您注册,选择(或创建)一个角色,给他们一个名字,然后开始说话。如果你喜欢的话,你可以调情、开玩笑、咆哮你的老板,或者精心设计整个 NSFW 场景。对话不断发展。人工智能会记住你的氛围、你过去的聊天记录、你的喜好,甚至你的怪癖。这就像约会……但是是在上帝模式下。真正的踢球者?它具有长期记忆、语音消息、NSFW 模式(复数)和可定制的个性。你们不只是聊天。您正在打造一种情感上敏感的数字关系。糖果 AI 女孩生成器指南 以下是如何创建 [...]

ANN 每日航空术语 (02.08.26):甚高频 (VHF)

ANN's Daily Aero-Term (02.08.26): Very High Frequency (VHF)

甚高频 (VHF) 30 至 300 MHz 之间的频段。该频段的部分(108 至 118 MHz)用于某些导航设备; 118 至 136 MHz 用于民用空中/地面语音通信。该频段内的其他频率用于与空中交通管制无关的目的。

家庭人工智能统计

AI at Home Statistics

人工智能在日常生活中发挥着越来越大的作用。最初只是智能恒温器、扬声器和灯等一些智能设备,现在已经变成了一个成熟的生态系统,影响着我们在家中的生活、工作和照顾自己的方式。无论是语音助手还是人工智能医疗设备,人工智能在家庭中正变得越来越主流。在本文中,我们将了解以下家庭人工智能统计数据:市场规模和增长每个国家/地区的智能家居设备数量(按类别)智能扬声器采用率人工智能[...]

我用一个免费的替代方案替换了 Google 地图,该替代方案不会跟踪我(或耗尽我的手机电池)

I replaced Google Maps with a free alternative that doesn't track me (or kill my phone battery)

Comaps 具有语音导航和离线搜索功能,将隐私优先于 Google 地图使用的有争议的做法。

FAA 强制要求美国新飞机安装 25 小时驾驶舱录音机

FAA mandates 25-hour cockpit voice recorders for new aircraft in the US

美国联邦航空管理局发布了一项最终规定,要求美国大多数新制造的大型飞机都必须配备……美国联邦航空局要求美国新飞机配备 25 小时驾驶舱语音记录器。

Mistral Voxtral 对抗人工智能翻译巨头

Mistral Voxtral Rivals AI Translation Giants

为什么重要:Mistral Voxtral 凭借专为实时语音 AI 构建的快速开源模型与 AI 翻译巨头展开竞争。

空降兵 02.02.26:特朗普诉加拿大 Av,巨型绝唱,飞机窃贼被抓获

Airborne 02.02.26: Trump v Canada Av, Jumbo Swan Song, Plane Thief Caught

另外:星舰 V3 发射、奥什科什人道主义、CAF 西德克萨斯翼、25 小时驾驶舱语音记录 特朗普总统周四表示,美国将取消庞巴迪环球快车公务机的认证,并威胁对加拿大制造的其他飞机征收 50% 的进口关税,直到加拿大对美国竞争对手湾流生产的多架飞机进行认证。目前尚不清楚他是否拥有出于经济原因撤销飞机认证的法律权力。空中客车公司已正式退役第五架也是最后一架 A300-600ST BelugaST,并于 1 月 29 日飞往北威尔士布劳顿机场来纪念这一时刻。这架名为“Tango Foxtrot”的飞机于当地时间 1100 点左右从波尔多运来,完成了大约三十年对空客生产的支持。联邦当局逮捕了一名南加州男