自然语言处理涉及计算机理解自然语言文本的能力,这可以说是追逐通用人工智能圣杯的主要瓶颈之一。鉴于深度学习技术前所未有的成功,自然语言处理社区几乎完全支持实际应用,最先进的系统不断涌现并以越来越快的速度争夺与人类同等的性能。因此,公平和充分的评估和比较长期以来一直让科学界着迷,不仅在自然语言领域,而且在其他领域,以确保值得信赖、可重复和无偏见的结果。一个流行的例子是软件产品的 ISO-9126 评估标准,它概述了广泛的评估关注点,例如成本、可靠性、可扩展性、安全性等。欧洲项目 EAGLES-1996 是 ISO-9126 备受赞誉的扩展,它描述了评估自然语言技术的基本原则,为后续的自然语言评估方法奠定了基础。
主要关键词