Camille R. C. Pescatore 1* , Haoyu Zhang 1* , Alex E. Hadjinicolaou 1 , Angelique C. Paulk 1,2 , John D. Rolston 3 , R. Mark Richardson 4 , Ziv M. Williams 4,5,6 , Jing Cai 4† & Sydney S. Cash 1,2,5† 1 Department of Neurology, Massachusetts General Hospital, Harvard Medical School, Boston, MA.2马萨诸塞州波士顿的马萨诸塞州综合医院神经科学中心和神经记录中心。3,杨百翰和妇女医院神经外科部,马萨诸塞州波士顿哈佛医学院。4马萨诸塞州波士顿哈佛医学院马萨诸塞州综合医院神经外科部。5哈佛大学卫生科学与技术部,马萨诸塞州波士顿。6哈佛医学院,马萨诸塞州波士顿神经科学计划。 *这些作者也同样贡献。 †这些作者也同样贡献。 应向谁致辞,电子邮件:jcai5@mgh.harvard.edu6哈佛医学院,马萨诸塞州波士顿神经科学计划。*这些作者也同样贡献。†这些作者也同样贡献。应向谁致辞,电子邮件:jcai5@mgh.harvard.edu
脑部计算机界面(BCIS)可以从神经活动中解释想象的语音。但是,这些系统通常需要广泛的培训课程,参与者想象地重复单词,从而导致精神疲劳和困难识别单词的发作,尤其是在想象单词序列时。本文通过转移经过公开语音数据培训的分类器来掩盖语音分类,从而解决了这些挑战。我们使用了源自希尔伯特包络和时间精细结构的脑电图(EEG)特征,并将它们用于训练双向长短记忆(BILSTM)模型进行分类。我们的方法减轻了广泛的培训和实现最先进的分类精度的负担:公开语音的86.44%,使用公开的语音分类器的秘密语音为79.82%。
与开放研究的非营利性AI研究实验室同时翻译技术Kyutai的技术已发布Hibiki,这是一种针对语音到语音翻译的新音频模型。hibiki(日语中的“回声”)可以同时进行翻译,同时保留说话者的声音,并最佳地适应源语音的语义内容。hibiki用目标语言实时生产口头翻译以及书面的翻译。Hibiki目前接受了从法语到英语翻译的培训,在翻译质量,扬声器忠诚度和自然性方面的最先进表现都展示了这一任务。此外,其推理过程的简单性使其与批处理的翻译兼容,以进行有效的在线部署以及实时的实时使用。在Moshi发行仅六个月后,Kyutai的声音AI是全双工口语对话的AI,如今已通过公众共享推理代码,法语到英语模型的权重和技术报告,使Hibiki开创性的技术可用。研究人员和AI社区现在将能够在Hibiki的顶部建立,并将其扩展到其他语言。这是语音技术的新里程碑,它为沟通和可访问性开辟了非凡的机会。
脑机接口 (BCI) 可以从神经活动中解码想象中的语音。然而,这些系统通常需要大量的训练,参与者在训练中想象重复单词,这会导致精神疲劳和难以识别单词的开头,尤其是在想象单词序列时。本文通过将在显性语音数据中训练过的分类器转移到隐性语音分类中来解决这些挑战。我们使用了从希尔伯特包络和时间精细结构中得出的脑电图 (EEG) 特征,并使用它们来训练双向长短期记忆 (BiLSTM) 模型进行分类。我们的方法减轻了大量训练的负担,并实现了最先进的分类准确率:使用显性语音分类器,显性语音的准确率为 86.44%,隐性语音的准确率为 79.82%。
该研究的问卷是由OFCOM设计的,并由YouGov进行了审查,以确保问题能成功地在线翻译。调查表的结构是确保受访者仅询问与他们报告使用的设备相关的语音助手。例如,三星Bixby仅被问及表明他们使用三星设备的受访者,而Apple Siri仅在报告使用Apple设备的人中只查询过Apple Siri。同样,也没有询问受访者与他们的设备生态系统不符的语音助手,例如智能手机上的Microsoft Cortana。
抽象开发的特定于域的对话剂(CAS)受到对广泛针对域数据的需求的挑战。大型语言模型(LLMS)的最新进展使它们成为知识骨干的可行选择。llms的行为,指示他们以零拍的方式执行下游任务(即没有培训)。为此,我们将结构知识纳入了提示中,并使用了提示LLM的原型域特异性CAS。我们在特定领域的纺织循环中演示了一个案例研究 - 纺织机器人,我们介绍了纺织机器人的设计,开发和评估。特别是,我们进行了一项面对面的用户研究(n = 30),其中包含免费的聊天和信息收集任务,并带有纺织机器人,以收集互动中的见解。我们分析了人类 - 代理人的相互作用,结合了定量和定性方法。我们的结果表明,参与者从事多转向对话,他们对三种变异剂和相互作用的看法各不相同,这表明了我们迅速的LLM方法的有效性。我们讨论了这些相互作用的动态及其对设计基于语音的CAS的影响。
摘要计算机应用程序的进步已经越来越促进了日常任务,最近的创新集中在语音助手和虚拟输入设备上。该技术对具有移动性挑战的个体或直接手动计算机交互的情况有限。利用计算机视觉和人工智能,这些应用程序可以解释视觉数据,例如人类运动,并决定执行相应的命令。本研究结合了语音助手,虚拟鼠标和虚拟键盘,以增强可访问性和可用性,特别是对于身体残疾人或喜欢替代输入方法的人。使用Python,MediaPipe和OpenCV,该应用程序有效地处理和解释用户手势,提供响应迅速,有效的计算体验。MediaPipe的功能特别有助于模型的精确度,优化了对AI驱动任务的手动跟踪和手势识别。用户可以通过各种手势来控制计算机光标,使用彩色盖或磁带在虚拟键盘上键入,并执行诸如左键单击和拖动项目之类的基本操作。这种集成的解决方案旨在提高生产率,使计算机更容易访问并增强用户的整体数字体验。在此类应用中,AI和计算机视觉的融合继续推动了创新和包容性的计算解决方案,并承诺在人类计算机互动中具有更大的可访问性和便利性的未来。
摘要。语音情绪识别(SER)是一个跨学科领域,利用信号处理和机器学习技术来识别和分类通过语音传达的情绪。近年来,由于其在人类计算机互动,医疗保健,教育和客户服务中的潜在应用,SER引起了极大的关注。可以从各种声学特征中推断出幸福,愤怒,悲伤,恐惧,惊喜和厌恶等情绪,包括音高,强度,语音速度和光谱特征。然而,由于诸如说话者的可变性,文化差异,背景噪声和情绪表达的微妙之处等因素,准确地识别语音的情绪是具有挑战性的。本文探讨了语音情感识别的最新方法,重点是深度学习方法,特征提取技术以及使用大规模情感标记的数据集。我们回顾了传统的方法,例如隐藏的马尔可夫模型和支持向量机,并将其与神经网络(尤其是卷积神经网络(CNN))和复发性神经网络(RNN)(RNN)中的现代进步进行比较。此外,我们讨论了该领域的挑战,包括自发言语中的情感检测,跨语性和跨文化识别的影响以及当前基准的局限性。最后,我们提供了SER系统的现实应用程序的概述,包括它们集成到虚拟助手,心理健康诊断和互动娱乐中。我们通过强调多模式情绪识别的新兴趋势,以及未来研究的潜力,以提高不同环境中SER系统的鲁棒性和准确性。
本文介绍了“ AI虚拟画家”系统:人工智能,增强现实以及用于在线购物和时尚的交互式设计工具。该系统通过使用OpenCV和MediaPipe识别用户手和身体运动,通过AI-功能绘画算法和实时手势跟踪进行输入。它使用户可以使用AI画家尝试,编辑和个性化不同的服装。此外,该系统集成了语音助手,使用户可以使用增强现实以获得无缝的购物体验将其自定义的服装放置在现实环境中。因此,该系统为在线购物者提供了使用AI驱动的服装设计和虚拟尝试的融合来查看确切配件的机会;能力带来了创造力和个性化,减少了对体育试验的需求。本文阐明了改善决策,节省时间并使购物减轻痛苦。因此,该系统具有重写零售方式规则的潜力,尤其是在教育环境和进一步的增强中。