简介。泰坦大气层与其表面之间的联系是独一无二的:它处于各种表面 - 大气过程的起源 - 液态甲烷流,波浪,降雨[1],沙丘运动,盐酸[2],尘埃[3]和雨暴风雨[4] - 在表面改变和大气动力学中都起着重要作用。有趣的是,泰坦的大气足以传播这些现象产生的声波。因此,可以通过记录其声学特征来定量和远程研究它们。的确,在板上毅力上具有超级骑士麦克风[5]的火星上已经证明了声学研究的巨大潜力[5],其中几个结果记录了近地面现象,例如湍流[6,7],风[8],尘埃[9]。但在泰坦上,由于声音传播条件的增强,这种潜力甚至更大:冷(〜90 K)和厚(〜1.5 bar)的表面大气(95%n 2,〜5%CH 4 [10])可以在长距离上维持声波,并吸收相对较低(见表。1)与火星或地球相比[11]。这种有利的环境激发了声学特性仪器赛车仪(API-V)在船上的船上载体下降模块,该模块成功地估计了下降期间和通过测量声速降落后的相对甲烷分数[12]。在2030年代中期,蜻蜓任务将探索赤道撞击火山口附近的泰坦,并带有可重新定位的旋翼飞机登陆器[13]。关键的地球物理和气象测量将由Dragmet套件(包括三个麦克风)组成的Dragmet Package提供[14]。为准备泰坦的声学探索,本研究旨在建模泰坦大气条件中的声音传播,以便能够估计水平
摘要 线材和电弧增材制造 (WAAM) 是一种增材制造 (AM) 工艺,可以生产大型金属部件,材料浪费少,生产率高。然而,WAAM 的高沉积率需要高热量输入,这可能导致孔隙、裂纹、未熔合或变形等潜在缺陷。为了在工业环境中实际实施 WAAM 工艺,必须确保无缺陷生产。然而,使用传统 NDT 技术(例如超声波、涡流、X 射线)进行 NDT 检测是一项非常艰巨的任务,尤其是在零件生产过程中。因此,需要可靠的在线 NDT 检测和监测技术来推广 WAAM 的工业应用。这项工作的目的是使用频率带宽为 10 至 1MHz 的现场采集声学数据来检测 WAAM 生产零件上的缺陷形成。WAAM 零件经过故意引入污染物的处理,同时获取其声学信号以将不同的信号特征与缺陷关联起来。为了识别缺陷形成,使用了两种不同类型的麦克风从同一沉积过程中获取数据。信号处理包括应用时域和频域技术,即功率谱密度和短时傅立叶变换。获得的声学特征可以区分有缺陷和无缺陷的信号,并确定污染物的空间位置。获取的声学信号还表明,传统麦克风获取的数据不足以完全表征 WAAM 工艺发出的声谱。这项工作展示了声学数据和信号处理在 WAAM 生产部件的在线检查中的潜力。关键词:WAAM、声学、傅里叶变换、光学麦克风、STFT
摘要 - 表达文本到语音(TTS)的目的是通过不同的口语风格综合语音,以更好地反映人类的语音模式。在这项研究中,我们试图使用自然语言作为一种提示,以控制合成语音中的样式,例如,“充满悲伤的情绪中的叹气语调,并有些无助的感觉”。考虑到没有现有的TTS语料库适合基于这项新型任务,我们首先构建了语音语料库,其语音样本不仅用内容转录,而且还具有自然语言的样式描述。然后,我们提出了一种表现力的TTS模型,名为Constructtts,该模型在以下方面是新颖的:(1)我们充分利用了自我监督的学习和跨模式公制学习,并提出了一种新颖的三阶段训练程序,以获得一种可有效地嵌入良好的句子模型,可以有效地从样式中捕获促进语音和对照式的演讲风格,从而有效地捕获语义信息。(2)我们建议在离散的潜在空间中对声学特征进行建模,并训练一种新型的离散扩散概率模型,以生成载体定量(VQ)声音令牌,而不是常用的MEL频谱图。(3)我们在声学模型培训期间共同应用共同信息(MI)估计和最小化,以最大程度地减少扬声器和样式的MI,避免使用样式提示中可能的内容和扬声器信息泄漏。已经进行了广泛的客观和主观评估,以验证指令的有效性和表现力。实验结果表明,指令可以通过控制口语样式的样式来合成高层和自然语音。
脑损伤或中风导致的脑损伤可能会演变为未确诊患者的言语功能障碍。使用基于 ML 的工具分析人类语音的韵律或发音语音可能有利于早期筛查未被发现的脑损伤。此外,解释模型的决策过程可以支持预测并采取适当措施来改善患者的语音质量。然而,依赖于低级描述符 (LLD) 的传统 ML 方法可能会牺牲详细的时间动态和其他语音特征。解释这些描述符也很有挑战性,需要付出巨大努力来理解特征关系和合适的范围。为了解决这些限制,本研究论文介绍了 xDMFCC,这是一种从单个语音话语中识别解释性判别声学生物标记的方法,可为语音应用中的深度学习模型提供局部和全局解释。为了验证这种方法,我们实施了该方法来解释在梅尔频率倒谱系数 (MFCC) 上训练的卷积神经网络 (CNN),以进行二元分类任务,以区分患者和对照组的发声。ConvNet 取得了令人满意的结果,f 分数为 75%(75% 的召回率、76% 的精确度),堪比传统机器学习基线。xDMFCCs 的与众不同之处在于它通过保留完整语音信号的 2D 时频表示进行解释。这种表示为区分患者和健康对照组提供了更透明的解释,提高了可解释性。这一进步使得对脑损伤的语音声学特征进行更详细、更令人信服的研究成为可能。此外,这些发现对于开发低成本、快速的未察觉脑损伤诊断方法具有重要意义。
尽管人工智能 (AI) 作为一门学科已成立 60 多年,但由于计算机技术的进步、机器学习算法的改进、图形处理单元通用计算的发展、大数据访问的增加以及云计算的兴起等诸多原因,人工智能在二十一世纪的前二十年取得了迅速发展。人工智能已被用于解决生活中各个方面的各种挑战性问题,例如商业、教育、安全、医学(Topol,2019 年;Rajpurkar 等人,2022 年)以及本合集感兴趣的人体生理学。本合集的目的是广泛介绍人工智能应用于人体生理学各种生物系统,特别是心血管、呼吸和内分泌系统所取得的最新进展。四篇文章极大地展示了人工智能在解决先前已知的心血管系统诊断局限性方面的应用。在缺血性心肌病领域,Zhao 等人。提出了几种基于支持向量机的模型,使用计算出的样本熵、心电图 (ECG) 和心向量图的 ST-T 段的空间异质性指数和时间异质性指数作为输入特征,组合模型作为检测心肌缺血的非侵入性工具具有最佳分类器性能。在将人工智能应用于结构性心脏病的解释时,Bailoor 等人使用基于心音主成分和瓣膜状态的健康和狭窄主动脉瓣的“声学特征”训练了线性判别分类器,以检测主动脉瓣异常。在心电图诊断和心律失常解释的道路上,Brisk 等人展示了波分割如何成为一种有用的心电图表示学习形式,从而提高模型在下游任务上的性能。最后,Cámara-Vázquez 等人讨论了深度卷积神经网络和体表电位映射在确定心房颤动患者消融目标区域方面的潜力。
摘要简介神经退行性和精神病障碍(NPDS)赋予了巨大的健康负担,随着人口的年龄增长。新的,远程提供的诊断评估可以通过分析语音来检测早期NPD的诊断评估可以实现较早的干预措施,而错过的诊断较少。应建立在具有NPD的人中远程收集语音数据的可行性。方法和分析本研究将评估从三个NPD队列中的个体遥遥收集的语音数据的可行性:神经退行性认知疾病(n = 50),其他神经退行性疾病(n = 50)(n = 50)(n = 50)和情感障碍(n = 50)(n = 50)(n = 50)(n = 50),以及匹配的对照(n = 75)。参与者将完成音频录制的语音任务以及一般和队列特异性症状量表。语音任务的电池将有多种目的,例如测量执行控制的各个要素(例如,注意力和短期记忆)以及语音质量的测量。参与者将在4周期间远程自我管理的语音任务和跟进症状量表。主要目的是评估使用自我管理的语音任务在广泛的NPD中远程收集连续叙事语音的可行性。此外,该研究还评估了声学和语言模式是否可以通过二进制分类器的接收器操作特征曲线的敏感性,特异性,Cohen的Kappa和区域来预测诊断组,从而衡量了诊断组。分析的声学特征包括Mel频率CEPSTRUM系数,强度频率,强度和响度,而基于文本的特征(例如单词数量,名词和代词率和思想密度)也将使用。伦理和传播该研究获得了卫生研究局与健康与护理研究威尔士的伦理批准(REC参考:21/PR/0070)。将通过在学术期刊,相关会议和
本文提供了有关使用Artifi Cial Intelligence Technologies和计算语言学方法的质量数字化背景下撰写哈萨克语语言的现代问题的信息。基于西里尔字母的哈萨克语当前字母的不正确性证明与其中包含西里尔字母有关,表示未包含在其声音结构中的音素。通过取代错误的字母来改革哈萨克的著作的必要性得到证实。错误和矛盾在基于拉丁字母的哈萨克字母的批准版本中显示,以及提出的字母作为替代批准的字母,其中重复了一些以前的错误。在这两种情况下,都没有对哈萨克语的声音系统进行分析和澄清,这是任何字母的基础。在这项研究中,为了澄清哈萨克语的音响系统,进行了实验,以确定哈萨克语声音的发音和声学特征,并在许多自然语言中使用的计算机程序。在表达分析中,特别注意元音,这引起了哈萨克的信件的各种矛盾。建议根据四个二进制特征使用元音的新分类,而不是根据三个二进制特征的传统分类。声学分析使用了共赋剂分析方法,该方法旨在识别频谱图中的某些共振体。实体。定量,联甲量对应于语音频谱中的最大值,并且通常以水平频段作为频谱图出现。在确定哈萨克语的声音系统的组成和分类效果:第一个基于拉丁字母:第一个基于土耳其字母基于图标记;第二个是基于使用Digraphs的英语字母。第二个选择方法可以解决使用Digraphs时出现的问题的方法。总而言之,提供了有关哈萨克斯坦正在进行和正在进行的工作的信息,该信息基于对哈萨克语的智能系统的创建,基于艺术智能和计算语言学的方法和技术,这些方法和计算语言学的结果是在来源列表中所反映的结果。
摘要:增材制造 (AM) 工艺中的质量预测至关重要,特别是在航空航天、生物医学和汽车等高风险制造业。声学传感器已成为一种有价值的工具,可通过分析特征和提取独特特征来检测打印图案的变化。本研究重点关注熔融沉积成型 (FDM) 3D 打印样品立方体 (10 mm × 10 mm × 5 mm) 的声学数据流的收集、预处理和分析。以 10 秒为间隔提取不同层厚度的时域和频域特征。使用谐波-打击源分离 (HPSS) 方法对音频样本进行预处理,并使用 Librosa 模块对时间和频率特征进行分析。进行了特征重要性分析,并使用八种不同的分类器算法(K最近邻(KNN)、支持向量机(SVM)、高斯朴素贝叶斯(GNB)、决策树(DT)、逻辑回归(LR)、随机森林(RF)、极端梯度提升(XGB)和轻梯度提升机(LightGBM))实施机器学习(ML)预测,以基于标记数据集对打印质量进行分类。使用具有不同层厚度的三维打印样品(代表两种打印质量水平)生成音频样本。从这些音频样本中提取的频谱特征作为监督ML算法的输入变量,以预测打印质量。调查显示,频谱平坦度、频谱质心、功率谱密度和RMS能量的平均值是最关键的声学特征。使用包括准确度分数、F-1分数、召回率、精确度和ROC / AUC在内的预测指标来评估模型。极端梯度提升算法脱颖而出,成为最佳模型,预测准确率为 91.3%,准确率为 88.8%,召回率为 92.9%,F-1 得分为 90.8%,AUC 为 96.3%。这项研究为使用熔融沉积模型进行基于声学的 3D 打印部件质量预测和控制奠定了基础,并可扩展到其他增材制造技术。
认知负荷的自动识别是开发自适应系统的重要一步,该系统能够为用户提供动态支持,以便将所经历的负荷保持在最佳范围内,从而实现最大生产力。语音包含大量信息,已被确定为衡量用户认知负荷的潜在方式。本论文的重点是语音特征对自动认知负荷评估的有效性,特别关注该研究领域的新视角。引入了一个名为 CoLoSS 的新认知负荷数据库,其中包含执行学习任务的用户的语音记录。该数据收集与现有的认知负荷数据库形成对比,因为尚未采用学习任务,并且除了迄今为止考虑的离散负荷水平外,它还提供连续的数字标签。CoLoSS 语料库与 CLSE 数据库(其中采用了 Stroop 测试的两个变体和一个阅读广度任务)一起构成了评估的基础。研究了不同类别的各种声学特征(包括韵律、语音质量和频谱)的相关性。此外,还引入了 Teager 能量参数(该参数在压力检测中已被证明非常成功)进行认知负荷评估,并展示了如何使用自动语音识别技术来提取用户认知负荷的潜在指标。作为进一步的贡献,提出了三个手工制作的特征集。通过使用为三类分类(低、中、高认知负荷)设计的独立于说话者的系统进行识别实验,系统地评估了提取的特征的适用性。测试了特征组合、特征选择过滤器、特征规范化方法和模型参数方面的各种配置。为了证明所提出的特征集的泛化能力,进行了跨语料库实验。此外,介绍了一种基于语音的认知负荷建模的新方法,其中负荷表示为连续量,因此其预测可以视为回归问题。在 CoLoSS 语料库上对回归算法的评估揭示了使用自动特征子集选择的优势。
词汇表 A A 加权:一种用于获得单个数字的技术,该数字代表包含广泛频率范围的噪声的声压级,其方式近似于耳朵的响应:人耳对所有频率的声音的反应并不相同,在低频和高频下的效率低于中频或语音频率。因此,使用 A 加权会弱化低频和高频。像差:与完美图像再现的任何差异。像差仪:一种用于测量光学像差的仪器。眼科像差仪的开发是为了测量无法通过自动验光仪或更传统的临床方法测量的复杂屈光不正。绝对阈值:导致感觉反应的刺激的最小值。适应:对新的身体和/或环境条件的生理调整(适应)。调节:眼睛的自动对焦过程,有助于在不同观看距离下保持清晰的视网膜图像。消色差:镜片组合(通常接触),可减少色差。声学:与声音或听觉有关。声学显示:呈现声学信息的显示。声场:对特定空间中声音行为的描述;特定开放、部分受限或完全封闭空间中一个或多个声源产生的声压分布。包含声波的空间区域 声阻抗:给定表面上平均的有效声压与流过该表面的声能有效体积速度之比。阻抗的单位是 Pa-s/m 3 或 dyne-s/cm 5 ,称为声欧姆 (Ω)。声学人体模型:人体头部(或人体头部和躯干)的复制品,在耳道中鼓膜位置放置麦克风,用于进行声学测量和声音记录。听神经:[参见听觉神经] 声压:[参见声压] 声反射:中耳肌肉的一种动作,可降低耳朵对高强度刺激的敏感度。声学特征:给定声源的特征声音,可用于识别声源。声波:通过弹性介质传播的机械扰动。声学:声音的产生、传输和接收的科学。执行器:用于或旨在用于移动或控制某物的设备。有源矩阵电致发光 (AMEL):一种电致发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵液晶显示器 (AMLCD):一种液晶显示器,其中每个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵 OLED (AMOLED):一种有机发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。主动降噪 (ANR):通过电子方式将背景噪声的相位反转 180 度并将此反转信号添加到原始噪声中来降低背景噪声的过程。动作空间:个人移动和做出决定的区域(半径 2 米内)。适应:感觉系统对长时间刺激的自动调整。[参见视觉适应和听觉适应]