摘要 — 在本文中,我们提出了一种架构来解决一个新问题,该问题最近因 COVID-19 大流行导致对虚拟内容交付的需求增加而更加突出。所有教育机构、工作场所、研究中心等都在尝试通过使用在线内容交付来弥合这些社交距离时期的沟通鸿沟。现在的趋势是创建演示文稿,然后使用各种虚拟会议平台进行交付。我们试图通过本文减少和消除创建和交付演示文稿所花费的时间,本文旨在使用机器学习 (ML) 算法和自然语言处理 (NLP) 模块自动从文档创建基于幻灯片的演示文稿,然后使用最先进的语音克隆模型以所需作者的声音传递内容。我们将结构化文档(例如研究论文)视为必须呈现的内容。首先使用 BERT 摘要技术对研究论文进行总结,并将其浓缩为幻灯片中的要点。 Tacotron 启发式架构具有编码器、合成器和基于生成对抗网络 (GAN) 的声码器,用于以作者的声音(或任何自定义声音)传达幻灯片内容。世界正面临一场大流行,人们不得不在生活方式上做出重大改变以适应它。现在几乎所有的学习都已转移到在线模式,工作专业人士现在都可以舒适地在家中工作。由于目前的情况,教师和专业人士已转向演示来帮助他们传递信息。在本文中,我们旨在通过自动化此过程并随后以自定义语音传递此演示文稿来减少创建演示文稿所需的大量时间,使用可以使用短音频片段克隆任何声音的内容传递机制。索引术语——语音克隆、生成对抗网络、摘要、自然语言处理、机器学习、Tacotron、Transformers。
主要关键词