Loading...
机构名称:
¥ 1.0

无声的语音界面(SSIS)提供了一种非浮力替代方案,用于脑部计算机界面,以实现无声的口头交流。我们介绍了多模式的口语神经音频(MONA),该系统通过新颖的损失功能(交叉对比度(交叉)和受监督的暂时性结合(SUPTCON)来利用跨模式对齐,以训练具有共享延伸表示的多模型模型。此档案仪使使用诸如LibrisPeech之类的只有音频数据集的使用来改善无声的语音循环。此外,我们引入了大语言模型(LLM)集成评分广告(LISA)可显着提高识别精度。一起,Mona Lisa将最新的单词错误率(WER)从Gaddy(2020)基准数据集中从28.8%降低到12.2%,以便在开放的词汇上进行无声的语音。对于人声录制,我们的方法将最新的方法从23.3%提高到3.7%。在大脑到文本2024竞争中,丽莎的形式最佳,将顶部的最高点从9.8%提高到8.9%。据我们所知,这项工作代表了第一次在开放词汇上进行无创的无声语音识别的情况,使15%的阈值清除了15%的阈值,这表明SSIS可以成为Au-Tomatic语音识别(ASR)的可行替代方案(ASR)。我们的作品不仅缩小了沉默和发声之间的性能差距,而且还为人类计算机互动开辟了新的可能性,在嘈杂和数据限制的政权中表现出跨模式方法的潜力。

使用LLM- ...

使用LLM- ...PDF文件第1页

使用LLM- ...PDF文件第2页

使用LLM- ...PDF文件第3页

使用LLM- ...PDF文件第4页

使用LLM- ...PDF文件第5页

相关文件推荐

2024 年
¥11.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
1900 年
¥1.0
2024 年
¥1.0
2023 年
¥9.0
2023 年
¥1.0
2023 年
¥3.0
2024 年
¥1.0
1900 年
¥5.0
2025 年
¥2.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
1900 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
1900 年
¥1.0