摘要:背景:将边缘计算集成到智能医疗保健系统中需要开发计算高效的模型和方法,以监视和检测患者的医疗状况。在这种情况下,移动设备(例如智能手机)越来越多地用于协助诊断,治疗和监测。值得注意的是,智能手机广泛普遍,很容易被大部分人口访问。这些设备使个人能够方便地记录和提交语音样本,从而有可能促进声音不规则或变化的早期发现。这项研究重点是基于智能手机捕获的人声样本来创建各种机器学习框架,以区分病理和健康的声音。方法:调查利用了公开发音的数据集,包括58个健康的语音样本和150个来自表现出病理状况的声音和机器学习技术的样本,通过使用MEL频率经常性经系系数来分类健康和患者的患者。结果:通过经过跨验证的两类分类,最佳的K-Neareb邻居表现出最高的性能,在识别健康和病理学的声音方面的准确率达到98.3%。结论:这项研究有望使智能手机能够有效识别人声疾病,为个人和医疗保健系统提供多种优势,包括提高可访问性,早期检测和持续监测。
随着云计算等现代计算技术的进步,数据处理和加密技术领域取得了长足的发展。在这场竞赛中,对在加密域中成功存储数据的需求日益增长,以避免共享网络中数据泄露的可能性。本文设计了一种基于量子混沌系统的语音加密算法的新方法。在所提出的方法中,语音样本的经典比特最初通过秘密偏振角以非正交量子态编码。在量子域中,编码后的语音样本根据受控非门进行位翻转操作,然后进行阿达玛变换。通过阿达玛变换实现阿达玛和标准基中量子态的完全叠加。使用改进的퐿̇푢-超混沌系统生成C-NOT门和阿达玛门的控制位。超混沌系统的秘密非正交旋转角和初始条件是确保所提算法安全性的关键。在量子域和经典域中分析了所提算法的计算复杂度,基于上述原理进行数值模拟,结果表明所提语音加密算法具有更宽的密钥空间、更高的密钥灵敏度以及对各种差分和统计密码攻击的鲁棒性。
言语障碍 (SD) 的分类对于治疗患有言语障碍 (SI) 的儿童至关重要。自动 SD 分类可以帮助言语治疗师为农村地区的 SI 儿童提供服务。检测 SD 的自动化技术可以客观评估语音属性,包括发音、流利度和韵律。临床检查和定量评估可以深入了解患者的说话能力和局限性。现有的用于 SD 检测的深度学习 (DL) 模型通常缺乏对不同人群和语音变化的泛化,导致在应用于具有不同语言背景或方言的个体时性能不佳。本研究介绍了一种基于 DL 的模型,用于使用语音样本对正常和异常语音进行分类。为了克服过度拟合和偏差,作者构建了具有 MobileNet V3 和 EfficientNet B7 模型权重的卷积神经网络模型,用于特征提取 (FE)。为了提高性能,他们将挤压和激励块与基于 MobileNet V3 的 FE 模型集成在一起。同样,使用结构修剪技术改进了基于 EfficientNet B7-mod el 的 FE。增强型 CatBoost 模型使用提取的特征区分正常和异常语音。实验分析使用包含 4620 个健康儿童话语和 2178 个 SI 儿童话语的公共数据集进行。比较研究揭示了所提出的 SD 分类模型的卓越性能。该模型的表现优于当前的 SD 分类模型。它可以用于临床环境以支持语言治疗师。使用多样化语音样本进行大量训练可以提高所提模型的通用性。
自适应差分脉冲编码调制。ADPCM 是一种压缩算法,通过频繁采样声音并以二进制形式给出样本值,将声音或模拟信息转换为二进制信息(一串 0 和 1)。ADPCM 在传输缓冲区之前对其进行压缩,并在接收缓冲区后对其进行解压缩。它用于在长距离光纤线路上传输声音,并将声音与文本和图像一起存储。G.721、G.726 和 G.727 是 ADPCM 的 Telcordia(和 CCITT)标准。G.726 ADPCM 计算 64kbps A 律或 µ 律 PCM 信号中两个连续语音样本之间的差异并记录该差异,因此使用更少的带宽。ADPCM 使用 8kHz 采样率(8000 个样本/秒)和 4 位编码,因此语音信号通过 32kbps(8000 x 4)数字信道传输,而不是 64Kbps 信道。另请参阅 PCM 。
心理压力与全球范围内的众多健康问题有关,包括心血管疾病、高血压和抑郁症 1 、 2 。传统上,心理压力是通过患者报告的问卷进行监测的,例如感知压力量表 (PSS)。PSS 是一种成熟的压力测量问卷,具有较高的可靠性和有效性 3 – 6 。它已被广泛用作研究其他压力测量方式(例如皮质醇浓度 7 – 9 )和衡量压力管理技术有效性 10 的参考。最近,人们对用于评估压力、抑郁和焦虑的基于人工智能的数字健康工具的兴趣日益浓厚 11 、 12 。Te Cigna StressWaves Test (CSWT) 是一种公开可用的专有 AI 工具,用于根据语音的声学特征和用户语音样本 13、14 中所说单词的语义特征来分析心理压力。据我们所知,尽管它被广泛使用并被一家全球健康服务公司整合到更广泛的压力和焦虑管理产品中,但目前还没有针对它发布的验证数据。本文提供了 CSWT 的独立验证数据。
摘要 - 情绪是人类言语交流中的重要因素,因此在人类机器人相互作用(HRI)期间了解个体的影响很重要。本文研究了视觉变压器模型的应用,即VIT(视觉变压器)和BEIT(来自图像变压器预训练的双向编码器代表)管道中的言语情感识别(SER)。重点是通过在基准数据集上填充这些模型并利用集合方法来概括为单个语音特征的SER模型。为此,我们从与NAO社会机器人进行伪自然对话的几个人类受试者中收集了音频数据。然后,我们对基于VIT和BEIT的模型进行了研究,并在参与者的看不见的语音样本上测试了这些模型,以便从语音中辨认出四种主要情绪:中性,快乐,悲伤和愤怒。结果表明,基准数据集上的填充视觉变压器,然后使用这些已经精心调整的模型或结合VIT/BEIT模型会导致比调节的Vanilla-Vits或BEITS更高的分类精度或BEIT。
言语情感识别(SER)被认为是研究的关键领域,在各种实时应用中具有重要的重要性,例如评估人类行为并在紧急情况下分析说话者的情绪状态。本文在这种情况下评估了深卷卷神经网络(CNN)的能力。CNN和长期的短期记忆(LSTM)深度神经网络都经过评估以进行语音情绪识别。在我们的经验评估中,我们利用多伦多的情感演讲集(TESS)数据库,该数据库包括来自年轻人和老年人的语音样本,涵盖了七种不同的情感:愤怒,幸福,悲伤,恐惧,惊喜,厌恶和中立性。为了增强数据集,语音变化与添加白噪声一起引入。经验发现表明,CNN模型的表现优于现有的有关使用Tess语料库的SER研究,从而在平均识别精度上提高了21%的提高。这项工作强调了SER的意义,并突出了深CNN在增强其在实时应用中的有效性的变革潜力,尤其是在高风险紧急情况下。
在过去的几十年中,人们一直致力于开发能够利用不可直接观察到的认知方面的方法。这包括很大程度上在无意识的情况下发展起来的语言知识和技能,因此可能难以或无法表达。基于语言认知和神经系统之间的关系,我们研究心率变异性 (HRV)(一种指示自主神经系统活动的心血管测量指标)是否可用于评估隐性语言知识。我们测试了 HRV 检测个人是否拥有语法知识的潜力,并探索了心血管反应的敏感度。41 名健康的英国英语成年人听了 40 个英语语音样本,其中一半包含语法错误。Thought Tech nology 的 5 通道 ProComp 5 编码器通过连接到非惯用手的中指的 BVP-Flex/Pro 传感器跟踪心率,速率为每秒 2048 个样本。广义加性混合效应模型证实了心血管对语法违规的反应:在对包含错误的刺激作出反应时,以 NN50 为指标的 HRV 显著降低,这在统计学上是显著的。心血管反应反映了语言违规的程度,NN50 随着错误数量的增加而线性下降,直到达到一定水平,之后 HRV 保持不变。这一观察结果使人们聚焦于生理和认知之间错综复杂的关系的新维度。能够使用高度便携和非侵入性技术进行语言刺激也为评估来自不同人群的个人在其自然环境和真实交流情境中的语言知识创造了令人兴奋的可能性。
摘要:在这项工作中,我们介绍了一种人工智能(AI)应用程序(CHATGPT)来培训另一个基于AI的应用程序。作为后一个,我们显示了一个名为Terabot的对话系统,该系统用于精神病患者的治疗。我们的研究是出于这样一个事实的激励,即对于这种特殊领域的系统,很难获取大量的现实数据样本来增加培训数据库:这需要招募更多的患者,这既耗时又昂贵。为了解决这一差距,我们采用了神经大型语言模型:CHATGPT版本3.5,仅生成用于培训我们的对话系统的数据。在最初的实验中,我们确定了最常见的意图。接下来,我们用一系列提示为Chatgpt提供了喂养,这触发了语言模型,以生成许多其他培训条目,例如,在与健康用户进行初步实验中收集的短语的替代方案。以这种方式,我们将培训数据集扩大了112%。在我们的案例研究中,为了进行测试,我们使用了来自32名精神病患者的2802次语音记录。作为评估指标,我们使用了意图识别的准确性。使用自动语音识别(ASR)将语音样本转换为文本。分析表明,患者的语音对ASR模块的质疑显着,导致语音识别恶化,因此意图识别的精度较低。但是,由于使用ChatGpt生成的数据增加了培训数据,意图识别精度相对增加了13%,总共达到了86%。我们还模拟了无错误的ASR的情况,并显示了ASR错误识别对意图识别准确性的影响。我们的研究展示了使用生成语言模型开发其他基于AI的工具的潜力,例如对话系统。
随着深度学习技术的快速发展,合成媒体的创建,尤其是深层的假声音,已经变得越来越复杂且易于访问。这在维持基于音频的内容的信任和真实性方面构成了重大挑战。在响应中,该项目提出了一种基于机器学习的方法来检测深层的假声音。该项目首先策划了一个由真实和深厚的假语音样本组成的多样化数据集,涵盖了各种人口统计学,口音和情感表达。预处理技术用于清洁和标准化音频数据,然后进行功能提取以捕获语音信号的相关特征。用于模型开发,采用了复发层增强的卷积神经网络(CNN)体系结构,从而利用了其从音频的频谱图来学习空间和时间特征的能力。该模型使用分类横向渗透损失在准备好的数据集上进行了训练,并通过反向传播进行了优化。对训练的模型进行评估是在单独的测试集上进行的,测量诸如准确性,精度,回忆和F1评分之类的性能指标。后处理方法,包括阈值和平滑,用于完善模型的预测并增强鲁棒性。所提出的方法提供了一个有希望的框架,用于检测音频内容中深层的虚假声音,这有助于努力打击错误信息的传播并保留数字媒体的完整性。但是,跨学科的持续研究和协作对于应对新兴挑战并确保负责任的伪造检测技术至关重要。