在本文中,我们概述了我们参加 SemEval-2024 第 9 项竞赛的作品:“脑筋急转弯:一项违背常识的新任务”。我们参与两个子任务:子任务 A - 句子拼图和子任务 B - 单词拼图。我们通过微调评估了大量不同大小的预训练的基于 Transformer 的语言模型。随后,我们对它们的分数和反应进行分析,以帮助未来的研究人员理解和有效地利用这些模型。我们表现最佳的方法在两个子任务的竞赛排行榜上都占据了竞争地位。在评估阶段,我们最好的作品在句子拼图中获得了 81.7% 的平均准确率,在单词拼图中获得了 85.4% 的平均准确率,分别比最佳神经基线 (ChatGPT) 高出 20% 和 30% 以上。
我们提出了一种基于检索增强生成 (RAG) 的训练算法来获得最相似的训练样本。获得的训练样本被用作参考,以执行基于上下文学习的大型语言模型 (LLM) 微调。我们使用提出的方法生成标题并从非结构化文本中提取数值。通过专门设计用于捕获数字的扩展标记语言 (XML) 标签,模型可以意识到非结构化文本中数字的存在。非结构化文本的标题经过预处理以包装数字,然后呈现给模型。许多数学运算也被作为参考传递,以涵盖思路链 (COT) 方法。因此,模型可以计算传递给数学运算的最终值。我们将数字验证作为后处理步骤,以验证模型计算的数值是否正确。生成的标题中的数字自动验证帮助模型在所涉及的方法中在人工评估中取得最佳结果。
语义文本相关性是语义相似性的更广泛的影响。它衡量了两个文本传达相似含义或主题或共享相关概念或上下文的范围。这种相关性概念可以在各种应用中(例如文档聚类和汇总)中提出。SEMREL-2024是Semeval-2024中的共享任务,旨在通过为包括阿拉伯语在内的14种语言和方言提供数据集来减少语义相关性任务中的差距。本文介绍了我们参与轨道A(阿尔及利亚和摩洛哥方言)和轨道B(现代标准阿拉伯语)的参与。在监督轨道(a)中对基于BERT的模型进行了精心调整,而基于BERT的CONINE相似性则用于无监督的轨道(B)。我们的系统在Semrel-2024中对MSA排名第1,Spearman相关得分为0.49。,我们为摩洛哥排名第5位,而阿尔及利亚的排名分别为0.83和0.53。
本文介绍了我们为Semeval-2024任务8开发的系统,“多基因,多域和多语言的黑盒机器生成的文本检测”机器生成的文本是主要的结合文本之一,这是由于使用大型文本(LLM)在虚假的文本中使用大型语言模型(llm),在伪造的文本中,播放,或者在考试中作弊,或偶尔抄写。已经开发了许多系统来检测机器生成的文本。尽管如此,这些系统中的大多数都依赖于文本生成模型。在现实世界中,这种限制是不切实际的,因为通常无法知道用户使用哪种特定模型用于文本生成。在这项工作中,我们提出了一个基于对比度学习的单个模型,该模型使用了基线参数的40%(149m vs. 355m),但在测试数据集(137名参与者中的21位)上显示了可比的性能。我们的主要发现是,即使没有多个模型的集合,单个基本模型也可以在数据增强和对比度学习的帮助下具有可比性的性能。1
在低资源语言中,训练数据量有限。因此,模型必须在未训练过的陌生句子和句法上表现良好。我们提出了一种通过编码器和语言模型集成来解决这个问题的方法。与多语言语言模型相比,特定语言的语言模型表现不佳。因此,多语言语言模型检查点针对特定语言进行了微调。在模型输出和 CRF 之间引入了一种新颖的独热编码器方法,以集成格式组合结果。我们的团队 Infrrd.ai 参加了 MultiCoNER 竞赛。结果令人鼓舞,团队位列前 10 名。在我们参加的大多数赛道中,与第三名的差距不到 4%。所提出的方法表明,以多语言语言模型为基础在编码器的帮助下的模型集成比单一语言特定模型的表现更好。
我们描述了两个针对临床文本的任务:命名实体识别(任务 1)和模板槽填充(任务 2)。这两个任务利用 ShARe 语料库中的注释,该语料库包含带有注释的临床记录,提及的疾病以及它们对医学术语和八个附加属性的规范化。这两个任务的目的是确定临床命名实体识别方面的进展,并确定疾病模板槽填充的最新技术。任务 2 包含两个子任务:根据黄金标准疾病跨度进行模板槽填充(任务 2a)以及端到端疾病跨度识别和模板槽填充(任务 2b)。对于任务 1(疾病跨度检测和规范化),有 16 支队伍参加。最佳系统的严格 F1 得分为 75.7,准确率为 78.3,召回率为 73.2。对于任务 2a(给定黄金标准无序跨度的模板槽填充),有六支队伍参与。最佳系统的槽填充综合总体加权准确率为 88.6。对于任务 2b(无序识别和模板槽填充),有九支队伍参与。最佳系统的综合宽松 F(跨度检测)和总体加权准确率为 80.8。