置信度领域信息情报检索---XiaoMi-AI

安全实验室新闻频道

2026年6月28日 19:26

AI一边诊断一边测试患者：根据答案的置信度，可以计算出谁的卡被纳入训练

ИИ ставит диагнозы, а заодно сдаёт пациентов: по уверенности ответа можно вычислить, чья карта попала в обучение

为什么模型的自信答案会损害患者的声誉和诊断的机密性。

亚马逊云科技 _机器学习

2026年7月22日 15:54

AI Teammates：monday.com 如何在 Amazon Bedrock 上运行生产 AI 代理

AI Teammates: how monday.com runs production AI agents on Amazon Bedrock

AI Teammates 是 Amazon Bedrock 上的代理 AI，很少有工程组织能够像 monday.com 那样在生产环境中运行它们。十分之九的建筑商每月使用人工智能编码工具，这一数字比大约半年前有所增加。每个工程师的 PR 吞吐量增加了一半以上。这篇文章中的每个数字都来自周一的内部生产数据。在这篇文章中，我们分享了这些数字背后的架构、使其在十年前的代码库中运行的改造，以及缩小与完全自治差距的置信度合并游戏。

La Biblia de la IA

2026年7月14日 17:18

当沉默更安全时：医疗保健领域 LLM 弃权的审查和决策理论框架

When silence is safer: a review and decision-theoretic framework for LLM abstention in healthcare

大型语言模型 (LLM) 旨在生成用户提示的答案，这通常会促使他们做出响应，即使不确定性很高、信息不完整或拒绝更合适。在医疗保健领域，这种倾向可能是危险的：自信地陈述但不准确的医疗建议可能会造成重大伤害，因此戒烟的能力尤其重要。在本文中，我们回顾了调查医疗保健领域法学硕士放弃行为的研究。文献强调了两个主要动机：（1）不确定性驱动的弃权，即模型在置信度较低时拒绝做出响应；（2）安全驱动的弃权，即模型拒绝提供潜在有害的信息。大多数现有机制都是外在的，依赖辅助工具来确定何时弃权。我们发现最先进的法学硕士仍然难以拒绝不适当的提示，而且很少有基准评估现实医疗场景中的弃权，其表现落后于其他领域。基于这些发

Apple机器学习研究

2026年7月2日 00:00

学习扩散语言模型的揭露策略

Learning Unmasking Policies for Diffusion Language Models

扩散（大型）语言模型 (dLLM) 现在在许多任务上与自回归模型的下游性能相匹配，同时有望在推理过程中提高效率。 dLLM 的一个关键设计方面是采样程序，该程序选择在每个扩散步骤中揭开哪些标记。事实上，最近的工作发现，与随机揭露相比，置信度阈值等启发式策略可以提高样本质量和令牌吞吐量。然而，这种启发式方法也有缺点：它们需要手动调整，而且我们观察到它们的性能......

Apple机器学习研究

2026年7月2日 00:00

关于 RL 微调 VLM 的鲁棒性和思想链一致性

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术，并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准，但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明，简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 痕迹——会导致鲁棒性和置信度大幅下降，并且当 CoT 一致性为……时，这些影响会更加明显。

置信度关键词检索结果

AI一边诊断一边测试患者：根据答案的置信度，可以计算出谁的卡被纳入训练

AI Teammates：monday.com 如何在 Amazon Bedrock 上运行生产 AI 代理

当沉默更安全时：医疗保健领域 LLM 弃权的审查和决策理论框架

学习扩散语言模型的揭露策略

关于 RL 微调 VLM 的鲁棒性和思想链一致性