我们提出了一个以工业规模部署的新型播客推荐系统。该系统成功地优化了数以千万名听众数月来展开的个人聆听之旅。偏离了为短期代理指标优化机器学习算法的普遍行业实践时,该系统在A/B测试中大大提高了长期性能。本文提供了有关我们方法如何应对归因,协调和测量挑战的见解,这些挑战通常会阻碍这种长期优化。为了将这些实际见解与更广泛的学术框架相关,我们转向强化学习(RL)。使用RL的语言,我们制定了用户与建议系统的重复关系的全面模型。然后,在此模型中,我们将方法确定为对现有推荐系统组件的策略改进更新,并通过对价值功能和用户态表示的量身定制建模来增强。说明性的离线实验表明,与黑盒方法相比,这种专业建模可将数据要求减少多达120,000倍。
音频深度伪造对我们日常交流中的信任构成了日益严重的威胁。为此,研究界开发了各种各样的检测技术,旨在防止此类攻击欺骗用户。不幸的是,这些防御措施的创建通常忽略了系统中最重要的元素——用户自己。因此,尚不清楚当前的机制是增强、阻碍还是仅仅与人类对深度伪造的分类相矛盾。在本文中,我们进行了首次大规模的深度伪造检测用户研究。我们招募了 1,200 多名用户,并向他们展示了来自三个被引用最多的深度伪造数据集的样本。然后,我们定量比较性能并定性进行主题分析,以激发和理解用户决策背后的原因以及与机器分类的差异。我们的结果表明,用户正确分类人类音频的比率明显高于机器学习模型,并且在进行分类时依赖语言特征和直觉。然而,用户也经常被对生成音频能力的先入之见所误导(例如,口音和背景声音代表人类)。最后,机器学习模型的缺陷在于
2:笔试是预筛选流程的一部分,将在申请人最近的海军招聘办公室进行。笔试必须在 9 月 15 日之前完成。提交申请人情况说明书和简历后,将提供此流程的说明。在收到这些说明之前,请不要拜访招聘人员。此步骤可以在 9 月 15 日之前的任何时间完成。
新刑法引入的主要变化之一是“通过任何音频视频电子方式记录犯罪现场,最好是手机”。通过以可靠的方式捕获犯罪现场,它可以帮助克服矛盾的证人证词和篡改指控的问题。法院正确强调了需要采用新技术的必要性,同时确保了足够的保障措施。但是,该指令的有效执行需要调查机构之间的适当培训,资源和协调。
现有的汽车环境意识的ADAS解决方案(相机,激光镜,超声波等)要求目标在传感器的明确视线中。必须通过某种能源来照亮目标,因此系统会受到灰尘,天气,照明和障碍物的影响。我们使用“倾听”环境的被动声学解决方案来解决这些局限性。它可以听到角落周围或远距离看不见的潜在目标,从而提供预警并改善其他ADAS系统的预警。我们旨在检测包括警笛,接近车辆,自行车甚至行人的各种公路参与者。我们讨论了用例和挑战,提出了基于汽车等级组件的廉价参考体系结构,并以初始验证结果报告了更新的开发状态。
摘要 - Audio DeNoisisiques是增强音频质量的重要工具。尖峰神经网络(SNN)为音频转化提供了有希望的机会,因为它们利用了脑启发的体系结构和计算原理来有效地处理并分析音频信号,从而通过提高的准确性和降低了计算机上的高空空间,从而实现了实时Denoo。本文介绍了Spiking-Fullsubnet,这是一种基于SNN的实时音频DeNoising模型。我们提出的模型不适合一种新型的封闭式尖峰神经元模型(GSN),以有效捕获多尺度的时间信息,这对于实现高赋予音频降解至关重要。此外,我们建议将GSN集成在优化的全snet神经架构中,从而实现了全频段和子带频率的有效处理,同时显着降低了计算的额外处理。与体系结构的进步一起,我们结合了一个基于度量歧视的损失函数,该功能有选择地增强所需的性能指标而不会损害他人。经验评估表明,尖峰全鞋的表现出色,将其排名为英特尔神经形态深噪声抑制挑战的轨道1(算法)的赢家。索引术语 - 语言denoising,尖峰神经网络,neu-Romorphic Computing,Audio Signal Processing
摘要 - 本文对深度学习模型开发的三个不同方面的典型技术进行了回顾。在本文的第一部分中,我们提供了音频表示形式的解释,从基本音频波形开始。然后,我们进入频域,重点是人类听力的属性,并最终引入了相对较新的发展。本文的主要部分重点是解释基本和扩展的深度学习体系结构,以及它们在音频生成领域的实际应用。解决了以下档案:1)自动编码器2)生成对抗网络3)标准化流动4)变压器网络5)扩散模型。最后,我们将检查四个不同的评估指标,这些指标通常是在音频生成中使用的。本文旨在为该领域的新手读者和初学者提供对音频生成方法中最新技术的全面理解,以及可以探讨未来研究的相关研究。
IDCC25 作者和审稿人使用生成式 AI 工具的指南 本指南基于:Lin, Z. (2024)。面向学术出版的 AI 政策框架,认知科学趋势,28(2),85-88。检索自 https://doi.org/10.1016/j.tics.2023.12.002 定义 生成式 AI 是一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。示例包括但不限于 ChatGPT、NovelAI、Gemini、Jasper AI、Rytr AI、DALL-E 等。出版道德 | 爱思唯尔政策。(nd)。爱思唯尔。 2024 年 5 月 9 日检索自 https://www.elsevier.com/about/policies-and-standards/publishing-ethics 作者指南 如果使用生成式人工智能开发投稿或投稿的任何部分,则必须描述其用途和目的。作者应准备好提供有关其投稿中所用工具和生成内容的提示的信息。作者有责任对人工智能生成的内容进行适当审查,以避免不准确和抄袭。使用生成式人工智能创建内容并不意味着相关工具的作者身份。 为本指南提供指导的出版商政策:出版伦理最佳实践指南 | Wiley。(nd)。2024 年 5 月 9 日检索自 https://authorservices.wiley.com/ethics-guidelines/index.html#22 ChatGPT 和生成式人工智能。(2023 年 1 月 27 日)。 SAGE Publications Inc. https://us.sagepub.com/en-us/nam/chatgpt-and-generative-ai 审稿人指南 审稿人不得将稿件或稿件的任何部分上传到生成式 AI 工具中,即使是为了改善其审稿的语言和可读性。这是基于对稿件中个人数据和/或专有信息的机密性的尊重,以及通过防止它们成为训练数据集的一部分来尊重知识产权。此外,审稿过程是一项人类活动
通才特殊需求专业 摘要 本研究调查了对 BTAD(盲文触觉音频设备)的物理属性、声音重量、质地和可学习性的评估。该研究采用描述性研究设计,彻底检查了 BTAD 的可用性。来自菲律宾宿务的九名特意挑选的参与者分别使用 BTAD 并使用研究人员开发的问卷对其进行了评估。分析揭示了六个主要主题:对 BTAD 物理属性的肯定观察、对其物理特性的否定观察、音量放大、BTAD 的便携性、质地一致性和易于操作。研究结果表明,用户对 BTAD 的满意度和改进领域参差不齐,尤其突出了音量问题,这对于依赖听觉提示的视障人士至关重要。因此,该研究建议提高设备的音量和耐用性。敦促未来的研究人员考虑用户反馈并优先考虑建议的改进,以开发更精致、功能更强大的 BTAD。关键词:BTAD、盲文触觉音频设备、可用性评估、描述性研究、视障、听觉提示、音量增强、设备耐用性。引言对于盲人来说,学习盲文阅读和书写与印刷品识字对于视力正常的人来说一样重要。盲文识字开辟了一个学习、休闲和就业机会的世界。儿童必须直接从经过认证的教师那里学习如何用盲文阅读和书写,这些教师意识到盲文在培养识字能力方面的重要性。大多数学习者从视障学生 (TVI) 的指导老师那里接受盲文指导,并得到通常只习惯于印刷品的教师的支持。学习盲文的学生面临的最大挑战之一是能否充分使用 TVI。盲文识字率低:世界各地都有视障人士。然而,只有少数人能够接触到盲文技术和教育。基于 RM Sheffield 的研究。例如,1992 年,美国教育部在一封概述其最终资助目标的信中指出,阅读盲文的学生比例正在下降。1965 年,所有盲人和视障学生中 48% 是盲文读者。到 1989 年,这一比例已降至 12%(第 14289 页)。文章强调了盲人和视障人士盲文识字率下降的惊人趋势。此外,传统盲文学习的有效指导也存在障碍。为了应对这些挑战,本研究试图全面评估盲文触觉音频设备