Understanding the Collection Process of Audio Data for Automatic Speech Recognition
自动语音识别系统和虚拟助手(如 Siri、Alexa 和 Cortana)已成为我们生活中的常见部分。随着它们变得越来越智能,我们对它们的依赖性正在显著增加。从开灯到打电话再到更换电视频道,我们利用这些智能技术来完成日常任务。但是,你有没有 […]
Stream multi-channel audio to Amazon Transcribe using the Web Audio API
在这篇文章中,我们探讨了使用浏览器的Web Audio API和Amazon转录流的Web应用程序的实现详细信息,以实现实时双通道转录。通过使用AudioContext,Channelmergernode和AudioWorklet的组合,我们能够无缝处理和编码来自两个麦克风的音频数据,然后再将其发送到Amazon转录进行转录。
「次元の呪い」への対処-モデルの精度を上げるにはどうしたらよいか?
大数据一词已经传播已经很长时间了。这是指无法转换为二维表格格式的大量数据(非结构化数据),例如音频数据或视频数据,或具有某些规律性的数据(半结构化数据),例如图形和电子邮件,但不在表格格式(半结构化数据)中。从本世纪初开始,随着IT开发的进步,这个概念逐渐扩展。在日本,该术语开始通常在2010年左右使用。2013年,它被选为新单词和流行语奖的候选人,但并未被选为大奖。从那以后,十多年来已经过去了,基于大数据的发展一直在一个接一个地出现,例如DX(数字转换),AI(人工智能)和生成的AI。关于大数据,从一开始就指出了数据复杂性的问题,据说是“维度的诅咒”。为解决这个问题做出了什么样的努力?在本文
Kyutai’s AI voice assistant beats OpenAI to public release
我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调,以教它如何互动。Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话,Kyutai 的 AI 语音助手在公开发布方面击败 OpenAI 的帖子首先出现在 DailyAI 上。
Shaip delivered 7M+ Utterances for a leading Fortune 500 company
收集并转录了超过 22,000 小时的音频数据以训练多语言数字助理。美国肯塔基州路易斯维尔,2022 年 8 月 1 日:Shaip 为一家美国跨国计算机技术公司提供了超过 22,000 小时的音频数据,以使用来自全球的 13 多种语言训练他们的多语言数字助理。超过 700 万条话语 [...]