2024 年说话人识别评估 (SRE24) 是美国国家标准与技术研究所 (NIST) 自 1996 年以来进行的一系列说话人识别评估中的下一次。评估系列的目标是 (1) 有效衡量当前技术的系统校准性能,(2) 提供一个通用框架,使研究界能够探索说话人识别领域有前途的新想法,以及 (3) 支持社区开发融入这些想法的先进技术。评估旨在引起所有致力于文本无关说话人识别一般问题的研究人员的兴趣。为此,评估旨在关注核心技术问题,并简单易懂,方便希望参与的人使用。本文档介绍了 SRE24 的任务、性能指标、数据、评估协议和规则 / 要求。SRE24 的组织方式与 SRE21 类似,重点关注通过对话电话语音 (CTS) 和视频音频 (AfV) 进行说话人检测。它将再次提供跨源(即 CTS 和 AfV)和跨语言试验,这要归功于在北美以外收集的多模态和多语言(即具有多语言受试者)语料库。然而,与以前的 SRE 相比,它还将引入一些新功能,包括注册片段持续时间可变性、更短持续时间的测试片段以及一些包含多个说话者的片段。但是,对于具有多个说话者的注册片段,将提供目标说话者的分类标记 1。SRE24 将提供固定和开放的训练条件,以允许统一的跨系统比较,并了解额外和不受限制的训练数据量对系统性能的影响(参见第 2.2 节)。与 SRE21 类似,SRE24 将包含三个轨道:纯音频、纯视觉和视听,其中包括使用音频、图像和视频材料自动检测人员。音频和视听轨道都需要系统提交,而视觉轨道则是可选的。表 1 总结了 SRE24 的轨迹。
主要关键词