The Geometries of Truth Are Orthogonal Across Tasks
本文在ICML 2025.LARGE语言模型(LLMS)的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力,但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活,以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”,从某种意义上说,可以区分产生正确答案的激活……
AI and the evolution of Software
AI周围的对话已成为一个可预测的周期:从新模型中宣布改变现实的功能,然后是一项科学研究,提醒我们AI既不是真正的智能也不有能力推理,实际上,实际上可能会让我们变得笨拙。我应该是前期:我认为AI模型很棒。我尽可能多地使用它们,并尝试与他们一起学习,我相信它们将从根本上改变我们的工作方式。在本文中,我将解释原因。
Rickards: Superintelligence Will Never Arrive
rickards:詹姆斯·里卡德斯(James Rickards)通过dailyreckoning.com永远不会到达詹姆斯·里卡德(James Rickards),读者至少知道有关人工智能的至少两件事。第一个是人工智能(AI)。第一个是AI Frenzy在过去的三年中,即使偶尔的训练都在努力训练。技能的点是正确的,有许多警告。 AI一直在推动股票市场创建高点,但市场具有超级泡沫的外观和感觉。撞车事故可能随时降低50%或以上。这不是当今主要股票指数的理由。泡沫的持续时间比任何人预期的更长。如果您简要介绍索引,则可能会损失很多钱。但是,建议减轻股权分配并增加现金分配,以避免坠机发生时最严重的损失
This puzzle game shows kids how they’re smarter than AI
华盛顿大学的研究人员开发了AI Game Eupzlers,以向孩子们展示AI系统通常仍然公然失败的区域:解决某些推理难题。在游戏中,用户有机会通过完成彩色块的模式来解决难题。然后,他们可以要求各种AI聊天机器人解决,并让系统解释其解决方案 - 他们几乎总是无法准确地做到这一点。
Advancing Egocentric Video Question Answering with Multimodal Large Language Models
以当前的视频问答(QA)需要模型来处理长途时间推理,第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型(MLLMS) - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM(GPT-4O,GEMINI-1.5-PRO,VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT)。我们将QAEGO4DV2介绍给MitigateAnnotation Noise…
Meta偷猎了Trapit Bansal,他是Openai的主要AI研究人员,他为早期的AI推理和强化学习工作做出了重大贡献。班萨尔(Bansal)搬到梅塔(Meta)的新AI超级智能团队强调了对AI人才的激烈竞争。该团队旨在开发下一代AI推理模型,与OpenAI和Google的竞争对手匹敌。
Google DeepMind推出了一种旨在通用敏捷性和快速任务适应的高效,设备机器人的模型。这款新产品被称为Gemini Robotics On Device,是Gemini Robotics VLA(Vision Language Action)模型的优化版本,该版本最初于3月推出,以将Gemini 2.0的多模式推理整合到物理应用中。双子座机器人[…]
How do we reduce the influence of AI misinformation?
AI生成的错误信息可能会影响人们,无论他们是否知道它是AI生成的,或者已经提醒他们不信任来源。该团队测试了一系列策略,以减少偏见的AI生成的文章的影响 - 包括事先为研究参与者的内容提供旨在降低他们对AI的信任的内容,从而使他们具有与现实世界中AI平台上的简单免责声明,或者在参与者阅读后的特定文章。研究人员说,有偏见的文章影响了参与者的推理,无论是被告知是否是AI,免责声明没有影响,虽然先发制人的内容减少了对AI生成的信息的一般信任,但似乎并没有减少研究中特定文章的影响。研究人员说,此后揭穿这篇文章确实有助于减少文章的影响力。
Musk Wants Grok AI To "Rewrite The Entire Corpus Of Human Knowledge"
Musk希望Grok AI通过Cointelegraph.com撰写的“重写人类知识的整个语料库”,Elon Musk说,他的人工智能公司XAI将在“垃圾箱”和“未经验证的数据”中以新的知识库为基础,将其AI模型Grok Ret Ret Return tor It first first first friment fort It recret It Cretite Contrite Coritive recret It Cornity Lefenter Lefent in tit。马斯克在周六的X帖子中说,即将到来的Grok 3.5模型将具有“先进的推理”,并希望将其用于“重写人类知识的整个
A Chinese firm has just launched a constantly changing set of AI benchmarks
测试AI模型时,很难确定它是推理还是仅仅从培训数据中反省答案。 Xbench是由中国风险投资公司HSG或Hongshan Capital Group开发的新基准,可能有助于避开该问题。这要归功于它不仅在…
Strategy's Michael Saylor Raises Bitcoin forecast To $21M By 2046
策略的迈克尔·塞勒(Michael Saylor)到2046年,海伦·帕特茨(Helen Partz)通过cointelegraph.com,比特币公牛和策略创始人迈克尔·赛勒(Michael Saylor)提高了比特币的预测提高到2100万美元 Bitcoin would hit $21 million in 21 years.“I think we’re going to be $21 million in 21 years. It's a very special time in the network. Maybe the one time in the history of the
Variational Rectified Flow Matching
我们研究变异的整流流匹配,该框架通过建模多模式速度矢量场来增强经典的整流流匹配。在推理时,经典的整流流匹配“移动”样品通过沿速度向量场的集成求解普通的微分方程,从源分布到目标分布。在训练时,通过线性插值从源来绘制的耦合样品和一个随机从目标分布中绘制的耦合样品,从而学习了速度矢量场。这导致“地面真相”'速度…
Auditors can prevent fraud just by tipping their hand
如果您曾经玩过扑克,那么您可能会使用战略推理,这种思维方法涉及通过理解和预期他人的行动来做出明智的决定。