详细内容或原文请订阅后点击阅览
taser:通过系统评估和推理的翻译评估
我们引入 TASER(通过系统评估和推理进行翻译评估),这是一种使用大型推理模型 (LRM) 进行自动翻译质量评估的指标。 TASER 利用 LRM 的显式推理能力对翻译质量进行系统、逐步的评估。我们在基于参考和无参考场景的 WMT24 指标共享任务上评估 TASER,展示了最先进的性能。在系统级评估中,TASER 在基于参考和无参考的设置中均实现了最高的软成对精度……
来源:Apple机器学习研究我们介绍TASER(通过系统评估和推理进行翻译评估),该指标使用大型推理模型(LRMS)进行自动翻译质量评估。泰瑟(Taser)利用LRMS的明确推理能力来进行系统的转换质量评估。我们在基于参考的情况和无参考方案中共享的WMT24指标共享任务上评估TASER,以证明最先进的性能。在系统级评估中,Taser在基于参考和无参考的设置中都达到了最高的软配对精度,表现优于所有现有指标。在细分市场级别上,泰瑟(Taser)保持了竞争性能,我们的无参考变体排名是所有无参考方法中表现最好的度量。我们的实验表明,与证明对传统LLM最佳的开放式方法相比,结构化的提示模板与LRM相比产生了较高的结果。我们评估了O3是一个来自OpenAI的大型推理模型,并进行了不同的推理工作,从而提供了对推理深度与评估质量之间关系的见解。 LRMS中的明确推理过程提供了解释性和可见性,并解决了现有自动化指标的关键限制。我们的结果表明,大型推理模型在翻译质量评估方面表现出可衡量的进步,将提高精度与跨不同语言对的透明评估相结合。
- †加利福尼亚大学,伯克利大学**在Apple