点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
HELM 不同于传统的评估,后者侧重于一个特定的场景或指标,以更好地提高透明度。过去的评估可能会评估模型对用户社交媒体评论的毒性进行分类的准确程度。虽然有用,但这对于应该满足许多要求的多用途语言模型来说是不够的。在上述假设中,还应该评估模型回答问题和总结文档的能力。而且我们应该要求的不仅仅是准确性:模型对某些人口统计数据的表现不应该比其他人口统计数据差,并且当它不知道正确答案时应该表达不确定性。应对更广泛的用例和需求空间使研究人员和政策制定者能够全面了解模型。
主要关键词