音频深度伪造对我们日常交流中的信任构成了日益严重的威胁。为此,研究界开发了各种各样的检测技术,旨在防止此类攻击欺骗用户。不幸的是,这些防御措施的创建通常忽略了系统中最重要的元素——用户自己。因此,尚不清楚当前的机制是增强、阻碍还是仅仅与人类对深度伪造的分类相矛盾。在本文中,我们进行了首次大规模的深度伪造检测用户研究。我们招募了 1,200 多名用户,并向他们展示了来自三个被引用最多的深度伪造数据集的样本。然后,我们定量比较性能并定性进行主题分析,以激发和理解用户决策背后的原因以及与机器分类的差异。我们的结果表明,用户正确分类人类音频的比率明显高于机器学习模型,并且在进行分类时依赖语言特征和直觉。然而,用户也经常被对生成音频能力的先入之见所误导(例如,口音和背景声音代表人类)。最后,机器学习模型的缺陷在于
FSDAC是一种半数字的重建过滤器,将噪声塑形器的1位数据流转换为模拟输出电压。由于DAC的固有滤波器功能,不需要TER
最近的研究使会说话的头视频的渲染能够捕捉到高富达的头部动态。然而,对详细的身份 - 特定的微表达和自发运动进行建模,例如唇部运动和眼睛闪烁,同时在听觉和视觉信号之间实现高度同步,这一挑战是一个挑战。在本文中,我们借助于散布的音频来解决此问题。具体来说,我们首先提取将保留特定于身份信息的核心听觉组件(content,timbre,ronythm和pitch)中脱离的音频功能。然后,散布的音频嵌入与视觉嵌入一起馈入条件隐式功能,以便学习高质量的视听映射以获取细节。实验结果表明,我们的方法可以(1)成功渲染针对每个正在建模的人的个性化的详细的身份 - 特定于特定的微表达,(2)提高了音频视觉渲染结果的保真度。
摘要 - 传统上,音乐教育依赖于理论教学和乐谱。但是,集成实时音频分析和交互式学习工具引入了学生如何掌握音乐基础知识的范式转变。本文介绍了一个基于Web的交互式平台和用于教学印度古典音乐(ICM)基础知识的实时音频分析系统。该平台结合了一系列实验,每个实验旨在增强对音乐元素的理解,从简单的音乐音符到复杂的旋律。音频分析还使用DSP套件TMS320C6713实时进行。本文提供了简洁的概述,强调了这些信号处理技术在音乐教育中的重要性及其在革新互动音乐学习中的潜力。学生可以实验,构成和可视化音乐元素,促进创造力并更深入地欣赏音乐的细微差别。实时反馈可以增强学习经验,从而立即进行更正和改进。索引术语 - 印度古典音乐,TMS320,信号程序,互动学习,音乐教育
“视频平台的演进”由许多关键技术驱动,包括5G、VR、AR、MR、数据营销、个性化和AI。索尼是一家开发基于人工智能的
摘要 — 在本文中,我们提出了一种架构来解决一个新问题,该问题最近因 COVID-19 大流行导致对虚拟内容交付的需求增加而更加突出。所有教育机构、工作场所、研究中心等都在尝试通过使用在线内容交付来弥合这些社交距离时期的沟通鸿沟。现在的趋势是创建演示文稿,然后使用各种虚拟会议平台进行交付。我们试图通过本文减少和消除创建和交付演示文稿所花费的时间,本文旨在使用机器学习 (ML) 算法和自然语言处理 (NLP) 模块自动从文档创建基于幻灯片的演示文稿,然后使用最先进的语音克隆模型以所需作者的声音传递内容。我们将结构化文档(例如研究论文)视为必须呈现的内容。首先使用 BERT 摘要技术对研究论文进行总结,并将其浓缩为幻灯片中的要点。 Tacotron 启发式架构具有编码器、合成器和基于生成对抗网络 (GAN) 的声码器,用于以作者的声音(或任何自定义声音)传达幻灯片内容。世界正面临一场大流行,人们不得不在生活方式上做出重大改变以适应它。现在几乎所有的学习都已转移到在线模式,工作专业人士现在都可以舒适地在家中工作。由于目前的情况,教师和专业人士已转向演示来帮助他们传递信息。在本文中,我们旨在通过自动化此过程并随后以自定义语音传递此演示文稿来减少创建演示文稿所需的大量时间,使用可以使用短音频片段克隆任何声音的内容传递机制。索引术语——语音克隆、生成对抗网络、摘要、自然语言处理、机器学习、Tacotron、Transformers。
现有的汽车环境意识的ADAS解决方案(相机,激光镜,超声波等)要求目标在传感器的明确视线中。必须通过某种能源来照亮目标,因此系统会受到灰尘,天气,照明和障碍物的影响。我们使用“倾听”环境的被动声学解决方案来解决这些局限性。它可以听到角落周围或远距离看不见的潜在目标,从而提供预警并改善其他ADAS系统的预警。我们旨在检测包括警笛,接近车辆,自行车甚至行人的各种公路参与者。我们讨论了用例和挑战,提出了基于汽车等级组件的廉价参考体系结构,并以初始验证结果报告了更新的开发状态。
轻度创伤性脑损伤 (mTBI 或脑震荡) 越来越受到关注,因为这种损伤在接触性运动中发病率较高,而且主观诊断方法 (纸笔) 也存在局限性。如果 mTBI 未被诊断出来,而运动员过早恢复比赛,则可能导致严重的短期和/或长期健康并发症。这表明提供更可靠的 mTBI 诊断工具以减少误诊的重要性。因此,需要开发可靠、高效的客观方法和计算稳健的诊断方法。在此初步研究中,我们建议从收集的参加橄榄球联盟的运动员的语音录音中提取梅尔频率倒谱系数 (MFCC) 特征,无论这些运动员是否被诊断患有 mTBI。这些特征是在我们新颖的粒子群优化 (PSO) 双向长短期记忆注意力 (Bi-LSTM-A) 深度学习模型上进行训练的。在训练过程中几乎没有发生过拟合,表明该方法对于当前测试数据集分类结果和未来测试数据具有很强的可靠性。区分 mTBI 患者的敏感性和特异性分别为 94.7% 和 86.2%,AUROC 得分为 0.904。这表明深度学习方法具有强大的潜力,未来分类结果的改进将依赖于更多的参与者数据和 Bi-LSTM-A 模型的进一步创新,以充分确立该方法作为实用的 mTBI 诊断工具的地位。
摘要 —本文提出了一种神经形态音频处理的新方法,将脉冲神经网络 (SNN)、Transformers 和高性能计算 (HPC) 的优势整合到 HPCNeuroNet 架构中。利用英特尔 N-DNS 数据集,我们展示了该系统处理多种语言和噪声背景下的不同人类声音录音的能力。我们方法的核心在于将 SNN 的时间动态与 Transformers 的注意机制相融合,使模型能够捕捉复杂的音频模式和关系。我们的架构 HPC-NeuroNet 采用短时傅里叶变换 (STFT) 进行时频表示,采用 Transformer 嵌入进行密集向量生成,采用 SNN 编码/解码机制进行脉冲序列转换。通过利用 NVIDIA 的 GeForce RTX 3060 GPU 和英特尔的 Core i9 12900H CPU 的计算能力,系统的性能得到进一步增强。此外,我们在 Xilinx VU37P HBM FPGA 平台上引入了硬件实现,针对能源效率和实时处理进行了优化。所提出的加速器在 100 MHz 下实现了 71.11 千兆操作每秒 (GOP/s) 的吞吐量,片上功耗为 3.55 W。与现成设备和最新最先进实现的比较结果表明,所提出的加速器在能源效率和设计灵活性方面具有明显优势。通过设计空间探索,我们提供了优化音频任务核心容量的见解。我们的发现强调了集成 SNN、Transformers 和 HPC 进行神经形态音频处理的变革潜力,为未来的研究和应用树立了新的标杆。
摘要:我们的世界完全依赖我们每天使用的小工具,使世界变得越来越大。拟议的情感交流基于非视线(NLOS),以摆脱传统的人机相互作用。这种情感交流定义为互动,类似于我们每天使用的常见视频和语音媒体;同样,该信息在长距离内传输。我们提出了EAS框架,这是针对实时沟通要求的情感交流协议的另一种合奏技术。该框架支持情感实现的交流。他们也设计了。最后,正在开发用于特征提取的CNN-LSTM体系结构,实施一种选择相关功能的注意机制,为选择相关功能而创建以及用于实时场景,使用有或没有注意机制的实时评估矩阵,为实时场景创建CNN-LSTM网络。DCCA特征提取用于在数据集中的不同标签之间提取属性和发现相关性。toAnaly在情感沟通中与他人之间的长距离通信的情感交流中的实时性能。提出的CNN-LSTM模型以87.08%的精度达到了最高精度,而现有模型(例如CNN基线和LSTM模型)分别显示出81.11%和84.01%。与现有作品相比,我们的方法显示出提高的准确性,尤其是对于实时应用程序。