推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
The Space Mirror Mirage: Physics, Economics, and the Glow of Investor Illusion
Reflect Orbital 照亮夜空的计划可能会成功——只是不会以它预期的方式实现。它将阐明技术想象力和物理可能性之间日益扩大的差距,以及风险投资梦想和经济意识之间更大的差距。就像一面反射阳光的镜子一样,它会短暂地眩目,然后消失在寒冷的黑暗空间中。
5 things to remember when talking to a chatbot
使用 ChatGPT 或其他聊天机器人时,请记住您的声音很重要,并注意奉承和幻觉。如需重要建议,请询问真实的人。
Republicans say VA patients can get equivalent private-sector care anywhere in the U.S.
这是退伍军人医疗保健倡导者苏珊娜·戈登 (Suzanne Gordon) 讨论的 50 个州的现实检验,以确定这是否属实。 选择的幻觉 共和党人表示,退伍军人事务部的患者可以在美国任何地方获得同等的私营部门护理。这是 50 个州的现实检验。在 2025 年 1 月的确认听证会上,退伍军人事务部部长道格·柯林斯 (Doug Collins) 表示,共和党人称退伍军人事务部患者可以在美国任何地方获得同等的私营部门护理,这一消息首先出现在《愤怒的熊》上。
Incorporating responsible AI into generative AI project prioritization
在这篇文章中,我们探讨了公司如何系统地将负责任的人工智能实践纳入其生成式人工智能项目优先级排序方法中,以更好地根据成本评估业务价值,同时解决幻觉和监管合规等新风险。这篇文章通过一个实际的例子展示了如何进行预先负责任的人工智能风险评估,通过揭示影响整体项目复杂性和时间表的大量缓解工作来显着改变项目排名。
Can animals be tricked by optical illusions?
动物会像人类一样陷入视错觉吗?据国际研究人员称,这可能取决于动物。研究小组测试了孔雀鱼和环斑鸠,看看它们是否会陷入艾宾浩斯错觉:在这种视错觉中,将一个圆圈放在较小的圆圈之间会使其看起来更大,而将其放在较大的圆圈之间则使其看起来更小。研究小组用食物重现了这种错觉,发现孔雀鱼总是陷入这种错觉,选择看起来“更大”的食物。另一方面,鸽子的情况则更加多样化,有些人一直陷入这种幻觉,而另一些人似乎不受影响。研究小组表示,这些差异可能是由于不同动物的生存方式所致。
上周我在 Twitter 上发布的一些有趣链接(我还在 Mastodon、Threads、Newsmast 和 Bluesky 上发布了这些链接):人工智能会让作曲家过时吗? https://www.theguardian.com/music/2025/oct/09/classical-music-and-ai-by-tarik-oregan-composer-radio-3我仍然怀疑人工智能可以做我需要使用 Excel 做的事情: https://dataconomy.com/2025/10/07/excel-gets-ai-agent-mode-for-automated-data-tas