矢量量化关键词检索结果

使用矢量量化优化上下文语音识别以实现高效检索

Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

神经语境偏差允许语音识别模型利用语境相关信息,从而提高转录准确性。然而,偏差机制通常基于音频和偏差条目目录之间的交叉注意模块,这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制,从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值,并实现了计算和内存高效的大偏差使用……

VQ4DiT:一种用于 DiT(扩散变压器模型)的快速训练后矢量量化方法

VQ4DiT: A Fast Post-Training Vector Quantization Method for DiTs (Diffusion Transformers Models)

文本到图像的扩散模型在根据输入条件生成复杂而忠实的图像方面取得了重大进展。其中,扩散变压器模型 (DiT) 变得特别强大,OpenAI 的 SoRA 是一个值得注意的应用程序。DiT 由堆叠多个变压器块构建而成,利用变压器的缩放属性通过灵活的参数扩展实现增强的性能。文章 VQ4DiT:一种用于 DiT(扩散变压器模型)的快速后训练矢量量化方法首次出现在 AI Quantum Intelligence 上。

芝麻语音模型:该病毒AI模型如何产生类似人类的语音

Sesame  Speech Model:  How This Viral AI Model Generates Human-Like Speech

深入研究残留矢量量化器,对话语音AI和健谈的变压器。芝麻后的语音模型:该病毒AI模型如何产生类似人类的语音,首先出现在数据科学上。

使用 VQ-VAE 和 TensorFlow Probability 进行离散表示学习

Discrete Representation Learning with VQ-VAE and TensorFlow Probability

在考虑变分自动编码器 (VAE) 时,我们通常会将先验描绘为各向同性的高斯。但这绝不是必需的。van den Oord 等人的“神经离散表示学习”中描述的矢量量化变分自动编码器 (VQ-VAE) 具有离散潜在空间,可以学习令人印象深刻的简洁潜在表示。在这篇文章中,我们结合了 Keras、TensorFlow 和 TensorFlow Probability 的元素,看看我们是否可以生成与 Kuzushiji-MNIST 中的字母相似的令人信服的字母。