Loading...
机构名称:
¥ 2.0

在该立场论文中,我们认为人类对生成大语言模型(LLM)的评估应是一个多学科的承诺,它借鉴了从学科(例如用户体验研究和人类行为心理学)的洞察力,以确保实验性设计和结果是可靠的。因此,这些评估的结论必须考虑诸如可用性,美学和认知偏见之类的因素。我们强调了齿状偏见如何将流利的信息和真实性混为一谈,以及认知不确定性如何影响诸如李克特等评级分数的可靠性。此外,评估应区分日益强大的大语言模型的能力和弱点,这需要有效的测试集。人类评估的范围性对于更广泛的采用也至关重要。因此,为了在生成NLP时代设计一个有效的人类评估系统,我们提出了考虑的考虑 - 人类评估框架,该框架由6个支柱组成 - con sistency,s coring cr i tera,s coring cr i tera,d ifferentiating,用户experience,r Esponsible和s calitible和s Calitia和s Calitia。

考虑了人类评估框架

考虑了人类评估框架PDF文件第1页

考虑了人类评估框架PDF文件第2页

考虑了人类评估框架PDF文件第3页

考虑了人类评估框架PDF文件第4页

考虑了人类评估框架PDF文件第5页

相关文件推荐