Q2. 当前基于文本的音频生成产品有哪些局限性?调查结果如图 1 所示。在这个问题中,调查发现音频质量是实际使用中面临的最大挑战。根据他们的评论,对质量的担忧还包括其他方面,例如低保真度、低采样率、粗糙度和其他相关因素。大多数受访者对采样率表示抱怨。值得注意的是,虽然行业要求全频带信号为 48kHz 或更高,但当前大多数系统仍在 16kHz-24kHz 范围内运行(Kreuk 等人,2022 年;Huang 等人,2023 年;Liu 等人,2023 年)。对于创造力,这是第二大最常选择的类别,它指的是生成满足艺术意图的新声音,例如创造“星球大战中光剑的声音”。而获得票数排名第三和第四的“编辑”和“文本”等词条则表明了可控性的问题。