WMT关键词检索结果

taser:通过系统评估和推理的翻译评估

TASER: Translation Assessment via Systematic Evaluation and Reasoning

我们引入 TASER(通过系统评估和推理进行翻译评估),这是一种使用大型推理模型 (LRM) 进行自动翻译质量评估的指标。 TASER 利用 LRM 的显式推理能力对翻译质量进行系统、逐步的评估。我们在基于参考和无参考场景的 WMT24 指标共享任务上评估 TASER,展示了最先进的性能。在系统级评估中,TASER 在基于参考和无参考的设置中均实现了最高的软成对精度……