置信度领域信息情报检索---XiaoMi-AI

MIT新闻 - 人工智能

2026年4月22日 15:15

教人工智能模型说“我不确定”

Teaching AI models to say “I’m not sure”

一种新的训练方法在不牺牲性能的情况下提高了人工智能置信度估计的可靠性，解决了推理模型中产生幻觉的根本原因。

走向数据科学

2026年4月21日 12:00

随着内存的增长，您的 RAG 肯定会出错 – 我构建了阻止它的内存层

Your RAG Gets Confidently Wrong as Memory Grows – I Built the Memory Layer That Stops It

随着 RAG 系统中内存的增长，准确性会悄悄下降，而置信度却会上升，从而造成大多数监控系统从未检测到的故障。本文将介绍一个可重复的实验，展示为什么会发生这种情况，以及简单的内存架构修复如何恢复可靠性。随着内存增长，您的 RAG 肯定会出错——我构建了阻止它的内存层，该文章首先出现在《走向数据科学》上。

经济浏览器

2026年3月31日 03:36

3 月份信心报告会下降多少？

How Much Will Reported Confidence Decline in March?

世界大型企业联合会对消费者信心的估计将于明天公布。以下是对情况有多糟糕的一些猜测。图 1：报告的世界大型企业联合会信心（粗体黑色）、即时预报（浅蓝色方块）、+/- 1 标准误差（浅蓝色 +）、彭博共识（红色方块）。资料来源：世界大型企业联合会，作者的计算。我使用了 2022-26 年一阶差分置信度回归 [...]

Apple机器学习研究

2026年3月24日 00:00

根据代币进行训练，根据概念进行校准：法学硕士中语义校准的出现

Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

大型语言模型 (LLM) 通常缺乏对其输出有意义的置信度估计。虽然众所周知，基础法学硕士会表现出下一个令牌校准，但目前尚不清楚他们是否能够评估其响应超出令牌级别的实际含义的信心。我们发现，当使用某种基于采样的语义校准概念时，基础法学硕士的校准效果非常好：它们可以有意义地评估开放域问答任务的置信度，尽管没有经过明确的培训。我们的主要理论贡献建立了一种机制，解释为什么语义......

置信度关键词检索结果

教人工智能模型说“我不确定”

随着内存的增长，您的 RAG 肯定会出错 – 我构建了阻止它的内存层

3 月份信心报告会下降多少？

根据代币进行训练，根据概念进行校准：法学硕士中语义校准的出现