Loading...
机构名称:
¥ 2.0

摘要:自现代计算的出现以来,研究人员一直在努力使人类 - 计算机接口(HCI)尽可能无缝。在各个方面都取得了进步,例如桌面隐喻(接口设计)和自然语言处理(输入)。最近受到关注的一个领域是语音激活及其推论,计算机生成的语音。尽管进行了数十年的研究和开发,但大多数计算机生成的声音仍然很容易识别为非人类的声音。语音中的韵律有两个主要组成部分 - 启动和节奏 - 通常缺乏计算机生成的声音。这项研究旨在通过结合人类语音的旋律和韵律元素来增强计算机生成的文本到语音算法。这项研究探讨了一种新颖的方法来通过使用机器学习,特别是LSTM神经网络来增加韵律,以在记录或生成的语音中添加副语言元素。目的是增加计算机生成的文本到语音算法的现实主义,增强电子阅读应用程序,并改善需要人工援助的人的人工声音。一台能够通过口语公告传达含义的计算机也将改善人工到计算机的互动。使用这种算法的应用程序可能包括改善高清音频编解码器,以进行电话,更新旧记录以及降低计算利用的障碍。结果令人鼓舞,基于LSTM的编码能够产生逼真的语音。这项研究通过通过实验室实验将算法分析和概括为模块化系统,以优化边缘案例中的组合和性能,以分析和概括算法为模块化系统,以进行数字语音改进。进一步的工作将涉及优化算法并将其性能与其他方法进行比较。

语音综合自然韵律的机器学习

语音综合自然韵律的机器学习PDF文件第1页

语音综合自然韵律的机器学习PDF文件第2页

语音综合自然韵律的机器学习PDF文件第3页

语音综合自然韵律的机器学习PDF文件第4页

语音综合自然韵律的机器学习PDF文件第5页