Leanlab关键词检索结果

Leanlab 创始人表示,教育科技应扎根于社区声音,共同设计

Leanlab Founder Says Ed Tech Should Root Itself in Community Voice, Co-Design

在过去十年中,Leanlab Education 帮助多家科技初创公司在课堂上站稳脚跟。其中包括社交情感学习工具 Sown to Grow、游戏化学习管理系统 Classcraft 和数学工具 Levered Learning 等。在此过程中,堪萨斯城的这家非营利组织已成为一种研究技术的代名词,称为 […]

随机对照试验仍然是教育技术研究的黄金标准

Randomized Controlled Trials Remain the Gold Standard for Ed Tech Research

在最近由 The 74 发表的采访中,Leanlab 创始人 Katie Boody Adorno 表示,随机对照试验可能是“一种过时的研究模式”。我完全不同意。RCT 仍然是有效研究的黄金标准,这是有充分理由的。它们通过考虑观察到的和未观察到的特征来减少困扰其他设计的偏见来源 […]

在 RAG 中对幻觉检测方法进行基准测试

Benchmarking Hallucination Detection Methods in RAG

评估增强 LLM 生成响应可靠性的方法。未经检查的幻觉仍然是当今检索增强生成应用中的一个大问题。本研究评估了 4 个公共 RAG 数据集中流行的幻觉检测器。使用 AUROC 和精确度/召回率,我们报告了 G-eval、Ragas 和可信语言模型等方法自动标记不正确的 LLM 响应的能力。使用各种幻觉检测方法识别 RAG 系统中的 LLM 错误。我目前在 Cleanlab 担任机器学习工程师,我为本文讨论的可信语言模型的开发做出了贡献。我很高兴介绍这种方法并在以下基准测试中与其他方法一起对其进行评估。问题:RAG 系统中的幻觉和错误众所周知,当被问到训练数据中没有很好支持的问题时,大型语言模型