在人与人之间的互动中,检测情绪通常很容易,因为它可以通过面部表情、肢体动作或言语来感知。然而,在人机交互中,检测人类情绪可能是一个挑战。为了改善这种互动,出现了“语音情绪识别”一词,其目标是仅通过语音语调来识别情绪。在这项工作中,我们提出了一种基于深度学习方法和两种高效数据增强技术(噪声添加和频谱图移位)的语音情绪识别系统。为了评估所提出的系统,我们使用了三个不同的数据集:TESS、EmoDB 和 RAVDESS。我们采用了多种算法,例如梅尔频率倒谱系数 (MFCC)、零交叉率 (ZCR)、梅尔频谱图、均方根值 (RMS) 和色度,以选择最合适的代表语音情感的声音特征。为了开发我们的语音情感识别系统,我们使用了三种不同的深度学习模型,包括多层感知器 (MLP)、卷积神经网络 (CNN) 和结合 CNN 与双向长短期记忆 (Bi-LSTM) 的混合模型。通过探索这些不同的方法,我们能够确定最有效的模型,用于在实时情况下从语音信号中准确识别情绪状态。总体而言,我们的工作证明了所提出的深度学习模型的有效性,
在人与人之间的互动中,检测情绪通常很容易,因为可以通过面部表情、肢体动作或语音感知到情绪。然而,在人机交互中,检测人类情绪可能是一项挑战。为了改善这种互动,出现了“语音情绪识别”一词,目的是仅通过语音语调识别情绪。在这项工作中,我们提出了一种基于深度学习方法和两种高效数据增强技术(噪声添加和频谱图移位)的语音情绪识别系统。为了评估所提出的系统,我们使用了三个不同的数据集:TESS、EmoDB 和 RAVDESS。我们采用了多种算法,例如梅尔频率倒谱系数 (MFCC)、零交叉率 (ZCR)、梅尔频谱图、均方根值 (RMS) 和色度,以选择最合适的代表语音情绪的声音特征。为了开发我们的语音情感识别系统,我们使用了三种不同的深度学习模型,包括多层感知器 (MLP)、卷积神经网络 (CNN) 和将 CNN 与双向长短期记忆 (Bi-LSTM) 相结合的混合模型。通过探索这些不同的方法,我们能够确定最有效的模型,以便在实时情况下从语音信号中准确识别情绪状态。总的来说,我们的工作证明了所提出的深度学习模型的有效性,
轻度创伤性脑损伤 (mTBI 或脑震荡) 越来越受到关注,因为这种损伤在接触性运动中发病率较高,而且主观诊断方法 (纸笔) 也存在局限性。如果 mTBI 未被诊断出来,而运动员过早恢复比赛,则可能导致严重的短期和/或长期健康并发症。这表明提供更可靠的 mTBI 诊断工具以减少误诊的重要性。因此,需要开发可靠、高效的客观方法和计算稳健的诊断方法。在此初步研究中,我们建议从收集的参加橄榄球联盟的运动员的语音录音中提取梅尔频率倒谱系数 (MFCC) 特征,无论这些运动员是否被诊断患有 mTBI。这些特征是在我们新颖的粒子群优化 (PSO) 双向长短期记忆注意力 (Bi-LSTM-A) 深度学习模型上进行训练的。在训练过程中几乎没有发生过拟合,表明该方法对于当前测试数据集分类结果和未来测试数据具有很强的可靠性。区分 mTBI 患者的敏感性和特异性分别为 94.7% 和 86.2%,AUROC 得分为 0.904。这表明深度学习方法具有强大的潜力,未来分类结果的改进将依赖于更多的参与者数据和 Bi-LSTM-A 模型的进一步创新,以充分确立该方法作为实用的 mTBI 诊断工具的地位。
公共安全是全球任何城市的重要问题。为了确保执法部门快速响应,可靠且逼真的枪声检测系统必不可少。为了加快调查进程,必须了解犯罪现场,并且当局应有能力重现现场。强大的枪声识别系统将通过协助犯罪现场重建、估计射手的位置和射弹的轨迹以及核实目击者提供的细节而变得有用。随着犯罪率的上升,视听监控系统越来越受欢迎。ShotSpotter [ 1 ] 是 SoundThinking 推出的 SafetySmart 平台中的枪声检测系统。执法机构通过在城市地区战略性地放置音频和视频传感器网络来使用 ShotSpotter。该系统捕捉所有周围的声音;如果它检测到任何枪声,它会对位置进行三角测量并向有关当局发出警报。该系统收集并分析数据,以创建易发生枪支暴力地区的地图。但是,该系统不会提供有关暴力事件所用枪支的信息,并且可能会对汽车回火或烟花等声音发出误报。大多数关于枪声检测系统的研究都使用来自使用多个麦克风或传统录音设备的严格受控环境的训练数据 [ 2 ]。此类数据通常仅包含光谱信息,因此使用几种模式识别方法来实现没有任何空间信息的枪声检测系统。输入时域信号通常分为多个短窗口帧和一些广泛使用的特征 - 例如梅尔频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数
目标:早期检测到心血管疾病(CVD)可以进行治疗,并显着降低死亡率。传统上,由于其成本率和简单性,因此使用Phoncartiogram(PCG)信号来检测心血管疾病。尽管如此,各种环境和生理噪声经常会产生PCG信号,从而损害了它们的基本独特特征。在人满为患和受资源受限的医院中,此问题的普遍性可能会损害医学诊断的准确性。因此,本研究旨在发现使用嘈杂的心脏声音信号检测CVD的最佳转换方法,并提出一个噪声强大的网络,以改善CVDS分类。方法:为了鉴定嘈杂心脏声音数据的最佳变换方法MEL频率cepstral coe ffi cients(MFCC),短期傅立叶变换(STFT),常数Q非组织Gabor Transform(CQT)和连续的Wavelet Transform(CWT)已与VGGGGG一起使用。此外,我们提出了一种新型的卷积复发性神经网络(CRNN)结构,称为噪声鲁棒有氧运动(NRC-NET),该结构是一个轻巧的模型,用于对二尖瓣反流,主动脉狭窄,二位骨狭窄,二尖瓣膨胀,二尖瓣脱垂和使用PCG的正常心脏的声音和随机呼吸的正常心脏的声音和正常呼吸道抗衡。包括一个注意块,以从嘈杂的腐败心脏声音中提取重要的时间和空间特征。结果:这项研究的结果表明,CWT是最佳转换
脑损伤或中风导致的脑损伤可能会演变为未确诊患者的言语功能障碍。使用基于 ML 的工具分析人类语音的韵律或发音语音可能有利于早期筛查未被发现的脑损伤。此外,解释模型的决策过程可以支持预测并采取适当措施来改善患者的语音质量。然而,依赖于低级描述符 (LLD) 的传统 ML 方法可能会牺牲详细的时间动态和其他语音特征。解释这些描述符也很有挑战性,需要付出巨大努力来理解特征关系和合适的范围。为了解决这些限制,本研究论文介绍了 xDMFCC,这是一种从单个语音话语中识别解释性判别声学生物标记的方法,可为语音应用中的深度学习模型提供局部和全局解释。为了验证这种方法,我们实施了该方法来解释在梅尔频率倒谱系数 (MFCC) 上训练的卷积神经网络 (CNN),以进行二元分类任务,以区分患者和对照组的发声。ConvNet 取得了令人满意的结果,f 分数为 75%(75% 的召回率、76% 的精确度),堪比传统机器学习基线。xDMFCCs 的与众不同之处在于它通过保留完整语音信号的 2D 时频表示进行解释。这种表示为区分患者和健康对照组提供了更透明的解释,提高了可解释性。这一进步使得对脑损伤的语音声学特征进行更详细、更令人信服的研究成为可能。此外,这些发现对于开发低成本、快速的未察觉脑损伤诊断方法具有重要意义。