语音识别关键词检索结果

cntxt AI启动Munsit:有史以来最准确的阿拉伯语音识别系统

CNTXT AI Launches Munsit: The Most Accurate Arabic Speech Recognition System Ever Built

在阿拉伯语人工智能的定义时刻,Cntxt AI揭开了Munsit,这是一种下一代阿拉伯语语音识别模型,不仅是有史以来为阿拉伯语创建的最准确的,而且果断地超过了像OpenAI,Meta,Meta,Microsoft,Microsoft,Microsoft和Elevenlabs这样的全球巨头。在阿联酋开发,并为阿拉伯语量身定制,从[…] CNTXT AI启动Munsit:有史以来最准确的阿拉伯语音识别系统首先出现在Unite.ai上。

自动化语音识别系统显示了使语言测试更易于访问和可扩展的希望

Automated speech recognition system shows promise for making language testing more accessible and scalable

在当今日益相互联系的世界中,语言学习对于教育,商业和文化交流至关重要。但是,准确衡量语言学习者的熟练程度是一个复杂的问题。一种特别有价值的方法是要求学习者听句子,然后尽可能准确地重复它们。

语音识别的前5个AI应用程序

Top 5 AI Apps for Speech Recognition

语音识别的前5个AI应用程序人工智能技术几乎触及了生活和环境的各个方面。特别是,语音/语音识别是属于AI的趋势技术之一,它使人对机器[…]

自动语音识别的下一步是什么?挑战和尖端方法

What’s Next for Automatic Speech Recognition? Challenges and Cutting-Edge Approaches

与当今自动语音识别(ASR)系统一样强大,该领域远非“解决”。研究人员和从业人员正在努力应对许多挑战,这些挑战推动了ASR可以实现的界限。从提高实时功能到探索将ASR与其他模式结合在一起的混合方法,在[…]帖子中的下一波创新浪潮是自动语音识别的下一步?挑战和尖端方法首先出现在Unite.AI上。

延迟融合:将大型语言模型集成到端到端语音识别的首次解码中

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它应用 LLM 分数……

格拉茨语言数据库改进了奥地利德语的自动语音识别

Graz Language Database Improves Automatic Speech Recognition of Austrian German

None

利用人工智能自动化实现卓越的语音识别性能

Harnessing Automation in AI for Superior Speech Recognition Performance

语音识别技术现在是我们数字世界的重要组成部分,推动着虚拟助手、转录服务等的发展。对准确、高效的语音转文本系统的需求不断增长,而人工智能的自动化对于满足这一需求至关重要。通过利用自动化,这些系统可以实现更高的性能、更高的可靠性和可扩展性。这 […]

什么是医疗语音识别以及它如何工作?

What is Medical Speech Recognition and How Does it Work?

想象一下这样一个世界:医生不再需要花费数小时来输入患者笔记,而是对着设备说话,然后看着他们说的话变成文本!这正是医疗语音识别正在发生的事情,这是医疗文档领域一项非常强大的技术创新。医疗语音识别旨在 [...]

使用矢量量化优化上下文语音识别以实现高效检索

Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

神经语境偏差允许语音识别模型利用语境相关信息,从而提高转录准确性。然而,偏差机制通常基于音频和偏差条目目录之间的交叉注意模块,这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制,从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值,并实现了计算和内存高效的大偏差使用……

检索增强校正命名实体语音识别错误

Retrieval-Augmented Correction of Named Entity Speech Recognition Errors

近年来,端到端自动语音识别 (ASR) 系统已证明其具有出色的准确性和性能,但这些系统对于训练数据中不经常出现的实体名称仍然具有显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是各种自然语言处理 (NLP) 任务的多功能工具。在具有相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果。在这项工作中,我们提出……

2024 年语音识别的四大挑战与解决方案

The Top 4 Speech Recognition Challenges & Solutions In 2024

几十年前,如果我们告诉别人,我们只需与机器对话就可以订购产品或服务,人们会认为我们很奇怪。但今天,这个疯狂的梦想已经成真。语音识别技术的出现和发展 […]

使用多样化建模单元增强基于 CTC 的语音识别

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……

基于一致性的极端边缘计算设备上的语音识别

Conformer-Based Speech Recognition on Extreme Edge-Computing Devices

这篇论文被 NAACL 2024 的行业轨道所接受。随着当今设备的计算能力和资源越来越强大,传统上计算密集型的自动语音识别 (ASR) 已从云端转移到设备,以更好地保护用户隐私。然而,在资源受限的设备(如智能手机、智能可穿戴设备和其他小型家庭自动化设备)上实现设备上的 ASR 仍然具有挑战性。在本文中,我们提出了一系列模型架构调整、神经网络图转换和数值优化来……

自动语音识别 (ASR):初学者需要知道的一切(2024 年)

Automatic Speech Recognition (ASR): Everything a Beginner Needs to Know (in 2024)

自动语音识别技术已经存在很长时间了,但最近在 Siri 和 Alexa 等各种智能手机应用程序中普及后才开始受到关注。这些基于 AI 的智能手机应用程序展示了 ASR 在简化我们所有人的日常任务方面的强大功能。此外,随着不同行业垂直领域进一步走向自动化,[…]

为您的 AI 模型选择正确的语音识别数据集

Choosing the Right Speech Recognition Dataset for Your AI Model

想象一下与 Siri 或 Alexa 互动。它们理解我们语音的能力令人着迷。这种能力源于它们训练中使用的数据集。这些数据集是来自不同语言和口音的大量口语单词、短语和句子的集合。它们为训练 AI 模型提供了原始材料。随着技术的发展,对 […]

语音识别与语音识别有何不同?

How is Speech Recognition Different From Voice Recognition?

您知道语音识别和语音识别是两种不同的技术吗?人们经常犯一个常见的错误,那就是将一种技术误解为另一种技术。这两种技术都有一些共同的技术背景,都是为了提高便利性和效率而开发的。实际上,它们是截然不同的。这两种技术都有各自的工作流程和不同的[…]

了解自动语音识别的音频数据收集过程

Understanding the Collection Process of Audio Data for Automatic Speech Recognition

自动语音识别系统和虚拟助手(如 Siri、Alexa 和 Cortana)已成为我们生活中的常见部分。随着它们变得越来越智能,我们对它们的依赖性正在显著增加。从开灯到打电话再到更换电视频道,我们利用这些智能技术来完成日常任务。但是,你有没有 […]

通过远程语音数据收集简化语音识别

Making Speech Recognition Streamlined with Remote Speech Data Collection

在当今数字化至上的世界中,数据所扮演的角色变得极为关键。无论是用于业务预测、天气预报,还是训练人工智能,数据都是必需的。机器学习等技术利用高质量的训练和测试数据来训练其模型。Siri 和 Alexa 是经过训练的语音或声音的一些常见示例 [...]