摘要“ voight-kampff”生成的AI作者验证任务旨在确定文本是由人工智能生成还是由人写的。在虚构的灵感中,voight-kampff任务结构AI的检测为建造者 - 破坏者挑战:建筑商,Pan Lab的参与者,提交软件,以检测AI写的文本,而Breakers,exterress of the Breakers,Eloquent Lab的参与者,提交AI写的文本,并以欺骗建筑商的目标。我们以一种让人联想到传统作者身份验证问题的方式制定了任务,在给定两条文本的情况下,应推断其人类或机器作者身份。对于第一个任务分期付款,我们进一步限制了问题,以确保每对包含一个人和一个机器文本。因此,任务描述读取:给定两个文本,一个由人类创作,一本由一台机器撰写:挑选人。总共评估了43个检测系统(30个参与者提交和13个基线),从线性分类器到基于困惑的零摄像系统。我们在14个基本集合中组织的70个单独的测试集变体上对它们进行了测试,每个变体都以不同的约束(例如短文,Unicode混淆或语言切换)设计。顶级系统的得分很高,证明自己并不完美,但在各种专业测试方案中都足够健壮。用于创建数据集并评估系统,基准和数据的代码可在GitHub上获得。2
摘要 - 说话者验证系统的性能可能会受到时域变化的不利影响。然而,由于没有适当的数据集,对时变的说话者的验证进行了有限的研究。本文旨在调查长期和短期时间变化在说话者验证中的影响,并提出解决这些影响的解决方案。对于长期说话者的验证(即跨年龄的说话者验证),我们引入了一种年龄段的对抗性学习方法,通过从voxceleb数据集中通过最小年龄信息来学习年龄不变的说话者的代表。对于短期演讲者的验证,我们收集了Smiip-pimevarying(SMIIP-TV)数据集,该数据集包括每天在连续90天的373位扬声器和其他相关元信息的录音中。使用此数据集,我们分析了说话者嵌入的时间变化,并提出了一种新颖但现实的时代的说话者的验证任务,称为增量序列 - 扬声器对扬声器的验证。此任务涉及注册音频和一系列测试音频之间的持续互动,目的是随着时间的推移提高性能。我们介绍了模板更新方法,以应对时间来应对负面影响,然后将模板更新处理作为马尔可夫决策过程,并提出基于深度强化学习(DRL)的模板更新方法。DRL的策略网络被视为确定是否以及应更新模板的代理。总而言之,本文释放了我们收集的数据库,研究了长期和短期时间变化的场景,并将洞察力和解决方案分解为随着时变的说话者的验证。
LLM的最新进展,尤其是随着GPT-3.5和GPT-4等复杂系统的开发,从广告和新闻写作到教育和医学研究的各个领域的内容创建彻底改变了跨各个领域的内容。这些模型现在能够生成紧密模仿人写作的文本,并在众多专业工作流程中提高生产力。但是,这种快速的整合面临着重大挑战,包括错误信息[1],伦理困境[2]和学术完整性问题[3,4,5]。LLM产生高度令人信服但可能具有误导性或不准确的内容的能力引起了人们对滥用假新闻,欺骗性社交媒体帖子的滥用的担忧,甚至促进了学术不诚实[6]。因此,开发可靠的方法来区分人类作品和机器生成的文本以减轻这些风险并确保负责使用LLMS变得越来越重要。应对这些挑战,PAN@CLEF 2024引入了Voight-Kampff Generative AI作者身份验证任务。对AI生成的文本的检测已成为研究的关键领域,这是由于需要维护跨数字平台的信息的完整性。传统的文本验证方法在很大程度上依赖于风格和语言特征,当面对现代LLM的精致时,通常不足。这些模型可以生成内容,不仅反映了人类写作,还可以适应各种上下文和样式,从而使手动甚至某些自动检测方法过时。因此,需要更先进的技术来有效地区分人类作者和机器生成的文本。在这项研究中,最初,我们使用培训数据集微调了变压器模型。此过程涉及调整模型参数以更好地符合数据集的特定特征,从而改善模型在我们特定任务上的性能。然后,我们将其准确性与累积学习模型的准确性进行了比较。结果表明合并累积学习模型