在本文中,我们描述了用于定量自然语言推断(QNLI)的方法,以及Semeval2024 Numeval任务1中的定量问题回答(QQA)。挑战的重点是增强模型的定量理解,从而证明其在某些任务上的绩效。我们从两个角度完成了这项任务:(1)通过在监督的微调阶段集成现实世界的数值 - 隔离数据(SFT)阶段,我们增强了该模型的NU-MERIMIC敏感性。(2)我们开发了一种重要的奖励模型评分机制,利用了从Human Refectback(RLHF)技术中的强化学习来提高模型的推理完整性。表现出的结果表明,我们的甲基动物可以实现出色的性能。我们的代码可以在https://github.com/ bit-numeval/numeval找到。
主要关键词