评估器关键词检索结果

无监督 LLM 评估

Unsupervised LLM Evaluations

从业者判断大型语言模型输出的指南评估人工智能生成的输出对于构建大型语言模型的稳健应用程序至关重要,因为它允许将复杂的人工智能应用程序拆分为具有内置错误控制的简​​单阶段。在监督模式下评估生成输出相对简单,其中“正确答案”可以由人类评估者计算或提示。同时,在许多实际的 LLM 应用中,监督方法过于严格,需要能够解决开放式问题的评估。构建无监督评估器的最简单方法是要求 LLM 自我评估。然而,生成模型检测自身输出错误的能力尚不清楚。我们证明,通过迭代自我反思可以提高自我评估的质量。与“思想链”技术类似,该方法以推理时的计算量换取最终结果的稳健性。带有示例的 Google Colab 笔记本链接:h

评判 LLM Judge:用于持续改进 LLM 评估的双层评估框架

Judge an LLM Judge: A Dual-Layer Evaluation Framework for Continuous Improvement of LLM Evaluation

“评判 LLM 评委”:用于持续改进 LLM 申请评估的双层评估框架“LLM 评委对 LLM 应用程序的评估”是否可以由另一位 LLM 评委审核,以持续改进评估过程?采用无参考方法的 LLM 应用程序评估持续改进框架 - 图片来自作者TLDR本文解释了雇用 LLM 评委评估另一位 LLM 评委的概念和低抽象实现。目的是改进 LLM 申请的评估流程,减少 LLM 评委未能做出公正评估的情况。目录介绍研究问题实验设计实施实验结果结论👉 简介❇️ 在构建 LLM 应用程序领域,如何确保一致且可靠的性能是讨论最多的主题之一。由于其不确定性,LLM 模型会在输出中产生很大的变化。因此,严格要求对 LLM

使用 SAFE 在 ChatGPT 等法学硕士中进行高效事实核查

Efficient fact-checking in LLMs like ChatGPT with SAFE

Google 的 DeepMind 开发了一种用于大型语言模型中长篇事实性的新方法——搜索增强事实性评估器 (SAFE)。该 AI 事实核查工具表现出令人印象深刻的准确率,优于人类事实核查员。

FunSearch:使用大型语言模型在数学科学中取得新发现

FunSearch: Making new discoveries in mathematical sciences using Large Language Models

在《自然》杂志发表的一篇论文中,我们介绍了一种搜索用计算机代码编写的“函数”的方法 FunSearch,并在数学和计算机科学中寻找新的解决方案。FunSearch 的工作原理是将预先训练的 LLM 与自动“评估器”配对,LLM 的目标是以计算机代码的形式提供创造性的解决方案,而自动“评估器”可以防止幻觉和错误的想法。