研究人员利用 AI 将录音转化为精确的街道图像

德克萨斯州奥斯汀 — 德克萨斯大学奥斯汀分校的一组研究人员利用生成人工智能将录音中的声音转换成街景图像。这些生成的图像的视觉准确性表明,机器可以复制人类对环境的音频和视觉感知之间的联系。在发表在《计算机、环境和……》上的一篇论文中,文章《研究人员使用人工智能将录音转换成准确的街道图像》首先出现在 UT 新闻上。

来源:德克萨斯大学

德克萨斯州奥斯汀 — 德克萨斯大学奥斯汀分校的一组研究人员利用生成式人工智能将录音中的声音转换成街景图像。这些生成的图像的视觉准确性表明,机器可以复制人类对环境的音频和视觉感知之间的联系。

在《计算机、环境和城市系统》上发表的一篇论文中,研究团队描述了如何使用从各种城市和乡村街景收集的音频和视觉数据来训练声音到图像的人工智能模型,然后使用该模型从录音中生成图像。

论文发表在《计算机、环境和城市系统》上 论文发表在《计算机、环境和城市系统》上

“我们的研究发现,声学环境包含足够的视觉线索,可以生成高度可识别的街景图像,准确描绘不同的地方,”德克萨斯大学地理与环境助理教授、这项研究的共同作者 Yuhao Kang 说。 “这意味着我们可以将声学环境转换成生动的视觉表现,有效地将声音转化为视觉。”

康宇豪 康宇豪

该团队使用来自北美、亚洲和欧洲城市的 YouTube 视频和音频,从不同地点创建了 10 秒的音频片段和图像静止图像,并使用它们来训练一个可以从音频输入生成高分辨率图像的 AI 模型。然后,他们将由 100 个音频片段制作的 AI 声音到图像创作与它们各自的真​​实世界照片进行比较,使用人工和计算机评估。计算机评估比较了源图像和生成图像之间绿化、建筑物和天空的相对比例,而人类评判者被要求将三个生成的图像中的一个与音频样本正确匹配。

最近发表在《自然》杂志上的论文 最近发表在《自然》杂志上的论文