声码器

2021-06-29 机构名称:

基于人工智能的演示文稿创建器，提供定制的音频内容交付

摘要 — 在本文中，我们提出了一种架构来解决一个新问题，该问题最近因 COVID-19 大流行导致对虚拟内容交付的需求增加而更加突出。所有教育机构、工作场所、研究中心等都在尝试通过使用在线内容交付来弥合这些社交距离时期的沟通鸿沟。现在的趋势是创建演示文稿，然后使用各种虚拟会议平台进行交付。我们试图通过本文减少和消除创建和交付演示文稿所花费的时间，本文旨在使用机器学习 (ML) 算法和自然语言处理 (NLP) 模块自动从文档创建基于幻灯片的演示文稿，然后使用最先进的语音克隆模型以所需作者的声音传递内容。我们将结构化文档（例如研究论文）视为必须呈现的内容。首先使用 BERT 摘要技术对研究论文进行总结，并将其浓缩为幻灯片中的要点。 Tacotron 启发式架构具有编码器、合成器和基于生成对抗网络 (GAN) 的声码器，用于以作者的声音（或任何自定义声音）传达幻灯片内容。世界正面临一场大流行，人们不得不在生活方式上做出重大改变以适应它。现在几乎所有的学习都已转移到在线模式，工作专业人士现在都可以舒适地在家中工作。由于目前的情况，教师和专业人士已转向演示来帮助他们传递信息。在本文中，我们旨在通过自动化此过程并随后以自定义语音传递此演示文稿来减少创建演示文稿所需的大量时间，使用可以使用短音频片段克隆任何声音的内容传递机制。索引术语——语音克隆、生成对抗网络、摘要、自然语言处理、机器学习、Tacotron、Transformers。

查看详细

File

2025-01-27 机构名称:

对同相听觉的实时算法进行基准测试...

摘要 — 在非快速眼动 (NREM) 睡眠期间对脑电图慢波 (SW) 进行听觉刺激，当其在 SW 的上行阶段进行时，已被证明可以改善认知功能。对于 SW 幅度较低的受试者，如老年人或患有帕金森病 (PD) 等神经退行性疾病的患者，SW 增强尤其可取。然而，现有的估计上行阶段的算法在低脑电图幅度和 SW 频率不恒定时存在相位精度较差的问题。我们介绍了两种用于在自主可穿戴设备上实时估计脑电图相位的新算法。这些算法基于锁相环 (PLL) 和首次基于相位声码器 (PV)。我们将这些相位跟踪算法与简单的幅度阈值方法进行了比较。优化后的算法在相位精度、估计 SW 幅度在 20 到 60 µV 之间以及 SW 频率高于 1 Hz 的相位的能力方面进行了基准测试，这些记录来自健康的老年人和 PD 患者。此外，这些算法在可穿戴设备上实现，并在模拟睡眠脑电图以及对 PD 患者的前瞻性记录过程中评估了计算效率和性能。所有三种算法都在 SW 上行阶段提供了 70% 以上的刺激触发。PV 在瞄准低幅度 SW 和频率高于 1 Hz 的 SW 时表现出最高能力。实时硬件测试表明，PV 和 PLL 对微控制器负载的影响都很小，而 PV 的效率比 PLL 低 4%。主动听觉刺激不会影响相位跟踪。这项工作表明，在低幅度 SW 人群中，也可以在家庭睡眠干预期间使用可穿戴设备提供相位精确的听觉刺激。

查看详细

XiaoMi-AI文件搜索系统

声码器

基于人工智能的演示文稿创建器，提供定制的音频内容交付

对同相听觉的实时算法进行基准测试...

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI