Reflection 70B 是最强大的开源 LLM 还是骗局?

HyperWrite 创始人兼首席执行官 Matt Shumer 宣布,他的新模型 Reflection 70B 使用一个简单的技巧来解决 LLM 幻觉,并提供了令人印象深刻的基准测试结果,击败了 GPT-4o 等更大甚至封闭的模型。 Shumer 与合成数据提供商 Glaive 合作创建了基于 Meta 的 Llama 3.1-70B Instruct 模型的新模型。在 Hugging Face 的发布公告中,Shumer 表示:“Reflection Llama-3.1 70B 是(目前)全球顶级的开源 LLM,采用名为 Reflection-Tuning 的新技术进行训练,该技术可教导 LLM 检测其推理中的错误并纠正路线。”如果 Shumer 找到了方法这篇文章 Reflection 70B 是最强大的开源 LLM 还是骗局?首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

HyperWrite创始人兼首席执行官Matt Shumer宣布,他的新型号Reflection 70B使用了一个简单的技巧来解决LLM幻觉,并提供了令人印象深刻的基准结果,这些结果击败了更大甚至封闭的型号,例如GPT-4O。

Shumer与合成数据提供商Glaive合作,创建了基于Meta Llama 3.1-70B指令模型的新模型。

在有关拥抱脸的发布公告中。 “反思骆驼-3.1 70b是(目前)世界上顶级的开源LLM,接受了一种名为Reflection-tuninging的新技术,该技术教授LLM在其推理和正确的过程中发现错误。”

如果Shumer找到了解决AI幻觉问题的方法,那将是令人难以置信的。他分享的基准似乎表明Reflection 70B领先于其他模型。

反射70B Matt Shumer提供的基准结果。来源:拥抱脸
拥抱脸

该模型的名称是指其在推断过程中自我纠正的能力的引用。 Shumer不会付出太多,但解释说该模型反映了其对提示的初始答案,并且只能输出一旦满足其正确性。

Shumer说,在下周揭幕时,将有405B版的反射版本,并将吹走其他型号,包括GPT-4O。

反射70B是骗局吗?

这太好了吗?反射70B可以在拥抱的脸上下载,但早期的测试人员无法复制令人印象深刻的Shumer的基准显示。

反思游乐场让您尝试一下模型,但说由于需求很高,演示暂时下降了。 “ Count'R in Strawberry”和“ 9.11 vs 9.9”提示暗示该模型可以正确地提示这些棘手的提示。但是一些用户声称反思已专门调整以回答这些提示。

反思游乐场
反思游乐场目前正在下降。资料来源:反思游乐场
反思游乐场 x

我们必须等待一两天才能看一下这是如何播放的。