摘要 — 大型语言模型 (LLM) 的最新进展已在各种语言任务中展示了其卓越的能力。受文本到文本翻译细化成功的启发,本文研究了 LLM 如何通过引入联合细化过程来提高语音翻译的性能。通过 LLM 对语音翻译 (ST) 和自动语音识别 (ASR) 转录进行联合细化,ST 模型的性能在无需训练的上下文学习和参数高效的微调场景中都得到了显着提高。此外,我们还探讨了在上下文感知微调场景下文档级上下文对细化的影响。在包含七个翻译任务的 MuST-C 和 CoVoST 2 数据集上的实验结果证明了使用包括 GPT-3.5-turbo、LLaMA3-8B 和 Mistral-12B 在内的几种流行 LLM 所提出方法的有效性。进一步的分析进一步表明,与单独细化翻译相比,联合细化转录和翻译可获得更好的性能。同时,结合文档级上下文可显著提高细化性能。我们在 GitHub 1 上发布了我们的代码和数据集。
本文由 NWCommons 教育部门免费提供给您,供您免费访问。NWCommons 的授权管理员已接受本文并将其纳入硕士论文和顶点项目中。如需更多信息,请联系 ggrond@nwciowa.edu。
比较:1. 直接解码语音的 F0 和倒谱梅尔系数,以及 2. 通过发音表示间接解码语音。为了从皮质活动中解码发音轨迹,首先使用动态时间规整算法从患者的音频记录中推导出这些轨迹。训练不同的循环或前向传播神经网络对电磁发音学数据进行发音-声学合成,并使用客观和感知标准进行评估。最佳模型经过微调,可以根据轨迹预测语音倒谱梅尔系数
摘要 - Billy Buddy反对网络欺凌的“基本上是为解决网络欺凌的安全空间,包括两个主要模块:管理员和用户。管理员模块包括安全登录,状态数据分析和用户管理,而用户模块允许注册,事件报告,与已解决类似问题的其他人进行讨论以及标记解决问题的问题。该平台通过OTP,配置文件管理为用户提供了密码恢复选项,并使用高级机器学习算法,其中包括随机森林,MLP分类器和ADABOOST来检测和分类网络欺凌。它是在Python,MySQL和Django中开发的,在HTML,CSS和JavaScript中具有直观的接口。“比利·巴迪(Billy Buddy)针对网络欺凌”的目的是针对一个有用的环境,用户可以利用先进的技术来解决这个严重的社会问题,并使数字世界成为更安全的地方,从而在其中用户可以报告和解决网络欺凌事件。Index Terms - Cyberbullying, Machine Learning, Random Forest, MLP Classifier, AdaBoost, Flask, Django, MySQL, Python, User Module, Admin Module, Problem Registration, Chat Support, Profile Management, State- wise Analysis, Data Classification, Web-based Platform, Cyberbullying Prevention, User Interaction, Secure Login, Dashboard, Sentiment Analysis.
摘要我们介绍了自我监控的推理时间干预(SMITIN),这是一种使用分类探针来控制自回归的生成音乐变压器的方法。这些简单的逻辑回归探针通过使用表现出特定的音乐性状(例如,鼓声/不存在鼓或真实/合成音乐)的小型音频示例对变压器中每个注意力头的输出进行了训练。然后,我们将注意力头转向探针方向,以确保生成模型输出捕获所需的MUSICAL性状。此外,我们监视探针输出,以避免在自回归产生中添加过量的干预措施,这可能会导致时间上不一致的音乐。我们在音频延续和文本到音乐应用程序中客观和主观验证结果,证明了将控件添加到大多数音乐家的重新培训甚至灌感都是不切实际的大型生成模式中的能力。建议的干预方法的音频样本可在我们的演示页面上
一个著名的假设认为,通过用婴儿导向语音 (IDS) 而不是成人导向语音 (ADS) 与婴儿交谈,父母可以帮助他们学习语音类别。具体而言,据称 IDS 的两个特点有助于学习:过度发音,使类别更可分离,以及多变性,使泛化更具鲁棒性。在这里,我们测试了元音类别学习在日本成人用 ADS、IDS(针对 18-24 个月大的婴儿)或阅读语音 (RS) 发出的语音声学表示上的可分离性和鲁棒性。可分离性是通过计算日语的五个短元音类别之间的距离测量来确定的,而鲁棒性则通过测试六种不同的机器学习算法来评估,这些算法经过训练对元音进行分类,以泛化到 ADS 中新说话者所说的刺激。使用两种不同的语音表示,我们发现,在 RS 的情况下,高清晰度语音可以产生更好的可分离性,并且在 ADS 中,说话者之间的差异性增加可以为某些算法产生更稳健的类别。然而,这些结论并不适用于 IDS,事实证明,与 ADS 输入相比,IDS 既没有产生更可分离的类别,也没有产生更稳健的类别。我们讨论了在真实数据上运行的机器学习算法的实用性,以测试有关 IDS 功能作用的假设。
摘要拥有宠物的相当复杂的方面之一是提供日常喂食和浇水,以保证一致性的方式。这一挑战尤其普遍存在,因为宠物主人有忙碌的时间表,或者当他们经常去商务旅行时。如果有智能解决方案或能力自动化这一过程的功能,它将极大地减轻这些负担的许多宠物主人。因此,物联网(IoT)正在迅速成为自动化宠物护理的解决方案。在这项工作中,我们提出了一个创新的基于IoT的和语音控制的宠物喂养和浇水自动化系统,该系统可以远程为宠物主人提供服务,以便在实时实施此练习时可以在任何地方进行。这项研究广泛地涉及系统的设计,开发,实施和实验,最后展示了自动化和智能技术如何改变我们今天了解的宠物护理的面貌。关键字:物联网(IoT),语音控制,自动化宠物馈线,Google Assistant,Nodemcu ESP8266,Adafruit IO,宠物护理自动化
人工智能(AI)促进组织和改变工作和人力资源实践,从而影响员工和人力资源专业。HR Analytics是在这种情况下的主要发展,它使HRM更具数据驱动,尤其是生成的AI(Genai)已经用于增强人力资源活动并自动化行政任务(Budhwar等,2023)。除了AI的最初应用之外,现在正在获得动力(例如,以化身或虚拟现实的形式),数字技术更广泛地影响了组织如何招募,培训和激励员工(有关概述,例如,请参见例如Garg等,2022)。此外,这些技术进步正在重塑传统的工作安排,从而产生诸如远程工作,混合模型和平台经济等现象,这些现象挑战了传统的组织边界及其控制机制和监管(Doellgast,2023年)。
帕金森病 (PD) 是一种神经退行性疾病,其特征是运动症状,包括早期声音产生改变。早期诊断不仅对于改善 PD 患者的生活质量至关重要,而且对于提高早期神经退行性疾病期间潜在的疾病改良疗法的有效性也至关重要,而当前的诊断工具往往会忽略这一窗口。在本文中,我们提出了一种通过领域自适应和自监督学习进行 PD 识别的更通用的方法。我们展示了所提出的方法在不同语言的不同数据集中的泛化能力。我们的方法利用 HuBERT,这是一个最初为语音识别训练的大型深度神经网络,并以自监督的方式在与目标群体(即老年人)相似的人群的未标记语音数据上对其进行进一步训练。然后对模型进行微调和调整,以用于多种语言的不同数据集,包括英语、意大利语和西班牙语。在四个公开可用的 PD 数据集上进行的评估证明了该模型的有效性,平均特异性为 92.1%,平均灵敏度为 91.2%。该方法可在大量人群中提供客观一致的评估,解决人类评估固有的差异性,并提供一种非侵入性、经济高效且方便的诊断选择。