在本文中,我们描述了用于定量自然语言推断(QNLI)的方法,以及Semeval2024 Numeval任务1中的定量问题回答(QQA)。挑战的重点是增强模型的定量理解,从而证明其在某些任务上的绩效。我们从两个角度完成了这项任务:(1)通过在监督的微调阶段集成现实世界的数值 - 隔离数据(SFT)阶段,我们增强了该模型的NU-MERIMIC敏感性。(2)我们开发了一种重要的奖励模型评分机制,利用了从Human Refectback(RLHF)技术中的强化学习来提高模型的推理完整性。表现出的结果表明,我们的甲基动物可以实现出色的性能。我们的代码可以在https://github.com/ bit-numeval/numeval找到。
基于调整的迅速研究,由于其效率和有希望的能力,近年来引起了人们的关注。只需几个样本即可实现自然语言处理(NLP)任务的最佳性能,至关重要的是要包含尽可能多的信息样本并避免误导性的样本。但是,在迅速调整文献方面没有工作解决了与模型培训中错误样本不同的硬性样本的问题,这是由于缺乏有关样品质量来培训训练良好模型的质量的监督信号所致。我们提出了一个名为“硬性样本意识到及时调查”(硬)的框架,以通过重新学习在硬样品识别中解决非差异的概率,并通过适应性对比学习方法加强了特征空间的折衷,而无需更改原始数据分布。对一系列NLP任务的广泛研究,在几次射击场景中表现出了硬化的能力。HardPT obtains new state-of-the-art results on all evaluated NLP tasks, including pushing the SST-5 accuracy to 49.5% (1.1% point absolute improvement), QNLI accuracy to 74.6% (1.9% absolute improvement), NMLI accuracy to 71.5 (0.7% absolute improvement), TACREV F 1 -score to 28.2 (1.0 absolute im- provement), and I2B2/VA F 1-分为41.2(1.3绝对改进)。