摘要 - 机器学习模型被广泛使用,但通常也可能是错误的。用户将受益于可靠的指标,即是否应信任给定模型的给定输出,因此可以做出合理决策是否使用输出。例如,输出可以与置信度度量相关联;如果这种置信度度量与正确性的可能性密切相关,则据说该模型是良好校准的。良好的置信度措施可以作为理性,逐步决策的基础,以了解使用生成的代码时需要多少审查和护理。校准已经在主要非生成中进行了研究(例如,分类)设置,尤其是在软件工程中。但是,生成的代码通常可能是错误的:给定的代码,开发人员必须决定是否直接使用,在仔细审查强度变化或丢弃模型生成的代码后使用。因此,卡尔 - 对生成环境至关重要。我们做出了一些贡献。我们开发了一个框架来评估代码生成模型的校准。我们考虑了几个任务,正确性标准,数据集和方法,并发现我们测试的大而生成的代码模型并未得到很好的开箱即用。然后,我们展示如何使用标准方法(例如PLATT缩放)改进校准。我们的贡献将在语言模型生成的当前使用代码中提供更好地校准的决策,并为将来的研究提供了一个框架,以进一步改善软件工程中生成模型的校准方法。由于Platt缩放率取决于正确性数据的事先可用性,因此我们评估了PLATT缩放在软件工程中的适用性和概括性,讨论其具有良好实际使用潜力的设置以及不存在的设置。索引项 - LLS,校准,置信度度量
主要关键词