LTM关键词检索结果

GoodAI LTM Benchmark v3 发布

GoodAI LTM Benchmark v3 Released

GoodAI LTM 基准测试的主要目的一直是作为我们在开发能够持续和终身学习的代理方面取得进展的客观衡量标准。但是,我们也希望它对开发此类代理的任何人都有用。为了实现这一点,我们已将此版本定位为更易于理解并产生更标准化的结果,我们希望这些结果更容易进行比较和分析。从基准测试的第一个版本开始,我们就将特定的测试实例分组到数据集或任务类型中。例如,有一个名为“购物清单”的数据集,我们可以从中抽取任意数量的不同测试实例,以评估代理记住一系列物品并保留用户购物清单的更新版本的能力。在早期版本中,每个测试可能会产生任意数量的分数点,并且这些分数点未标准化。这可能导致令人困惑的情况,即通过高度复杂的测试

LTM Benchmark:改进和新报告

LTM Benchmark: Improvements and new reports

在 GoodAI,我们致力于开发能够持续和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都作为代理和我们的虚拟测试人员之间一次非常长的对话的一部分进行。基准交织了来自不同任务的信息和探索性问题,尽管特别注意将它们编织成自然对话。LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI

介绍 GoodAI LTM Benchmark

Introducing GoodAI LTM Benchmark

作为我们在持续学习领域研究工作的一部分,我们正在开源一个基准,用于测试代理在非常长的对话中执行涉及高级使用记忆的任务的能力。除其他外,我们评估代理在需要动态维护记忆或长期整合信息的任务上的表现。我们正在开源:现行的 GoodAI LTM 基准。我们的 LTM 代理。我们的实验数据和结果。我们表明,信息的可用性是解决这些任务的必要条件,但不是充分条件。在我们的初始基准中,具有 8k 上下文的对话 LTM 代理与具有 128k 个令牌的长上下文 GPT-4-1106 相当。在内存要求高出 10 倍的更大基准测试中,我们的具有 8k 上下文的对话式 LTM 代理的性能比上下文大小为 128,000

LTMV

LTMV

LTMV

ChatGpt将很快验证您的年龄,以保护青少年用户

ChatGPT will verify your age soon, in attempt to protect teen users

Altman称潜在的隐私侵害变更为“值得权衡的权衡”,以使年轻用户在平台上更安全。

“这将是一种生活技能”:教育工作者讨论AI对大学教育的影响

‘It’s going to be a life skill’: educators discuss the impact of AI on university education

人工智能正在改变学生的学习方式和他们将毕业的世界。专家们透露申请人如何获得前进的首席执行官Sam Altman最近告诉美国播客,如果他今天毕业,“我会觉得自己是整个历史上最幸运的孩子。” Altman在2022年11月开发并发行了Chatgpt,他相信AI的变革性为年轻人提供了前所未有的机会。继续阅读...

麻袋,Chamath描述了与特朗普和技术精英的“超现实”白宫晚餐

Sacks, Chamath Describe 'Surreal' White House Dinner With Trump And Tech Elite

麻袋,Chamath描述了与特朗普的“超现实”白宫晚餐,技术优先派唐纳德·特朗普在白宫举办了一场备受瞩目的晚宴,吸引了硅谷最有影响力的领导人的名册,以讨论人工智能和美国投资。聚会包括梅塔(Meta)的马克·扎克伯格(Mark Zuckerberg),苹果的蒂姆·库克(Tim Cook),微软的比尔·盖茨(Bill Gates)和Openai的Sam Altman,其中许多人过去曾公开批评特朗普。埃隆·马斯克(Elon Musk)曾经是一个亲密的特朗普盟友,明显缺席,安排冲突和公众的关系中突出了他们的关系。萨克斯说:“这始于在硅谷组织的一个团体。它们是核心核心,然后越来越多的人想加入。”总统很快

每周评论2025年8月29日

Weekly Review 29 August 2025

我在上周发布的一些有趣的链接(我还将其发布在Mastodon,Threads,NewsMast和Bluesky上):AI生成的CAT视频,旨在上瘾: https://www.theguardian.com/culture/2025/aug/18/ai-has-created-created-a-new-breed-of-cat-cat-cat-video-addictive-distervive-disterting-disterbing----- and-sauseatelly-soap-soop-soop-soop-soop-soop-soop-soop-soop-soop-soop-po

[AI Show第164集]:新的MIT研究说,有95%的AI飞行员失败,AI和意识,另一个Meta AI Reorg,otter.ai诉讼和Sam Altman谈论GPT-6

[The AI Show Episode 164]: New MIT Study Says 95% of AI Pilots Fail, AI and Consciousness, Another Meta AI Reorg, Otter.ai Lawsuit & Sam Altman Talks Up GPT-6

AI的意识越快,就可以更快地准备……在人工智能秀的这一集中,Paul Roetzer和Mike Kaput解开了病毒MIT研究,这是公司迫使AI采用的残酷现实,以及Mustafa Suleyman对“看似有意识的AI”的警告。除了这些深度潜水之外,我们的快速射击部分还提供了Meta的AI Reorg,Otter.ai的法律麻烦,Google和Apple的AI策略以及AI使用的环境影响。

马斯克(Musk

Musk Takes On Apple, OpenAI In Antitrust Showdown Over Chatbots

马斯克(Musk)在聊天机器人埃隆·马斯克(Elon Musk)的X和XAI上对苹果(Apple)进行了反托拉斯(Aptai),在德克萨斯州沃思堡(Fort Worth)提起了联邦诉讼,指责苹果和Openai“锁定市场”以维护自己的垄断并拒之门外。这是因为马斯克与Openai首席山姆·奥特曼(Sam Altman)的长期仇恨加剧了。诉讼集中在苹果公司最近的交易中,以使Openai的Changpt成为iPhone操作系统上唯一的生成AI Chatbot,有效地关闭了Xai的Grok和其他竞争对手,例如Google的Google's Gexini和Anthropic。该诉讼的简介认为,苹果和Ope

美国监视公司在特朗普的移民镇压

US surveillance firms run a victory lap amid Trump’s immigration crackdown

Palantir等人拥有“轰炸”的增长,微软帮助监视巴勒斯坦电话线,元对儿童安全性的反对,并欢迎使用Techscape。 I’m your host, Blake Montgomery, currently enjoying Shirley Jackson’s eerie final novel We Have Always Lived in the Castle.Russia restricts WhatsApp and Telegram, alleging apps used for fraud and terrorismCrypto mogul Do Kwon pleads guilty

[AI Show第162集]:GPT-5的凌乱发射,Meta令人不安的AI儿童政策,Demis Hassabis的AGI时间轴和新Sam Altman/Elon Musk Drama

[The AI Show Episode 162]: GPT-5’s Messy Launch, Meta’s Troubling AI Child Policies, Demis Hassabis’ AGI Timeline & New Sam Altman/Elon Musk Drama

The aftershocks of GPT-5’s chaotic rollout continue as OpenAI scrambles to address user backlash, confusing model choices, and shifting product strategies.In this episode, Paul Roetzer and Mike Kaput also explore the fallout from a leaked Meta AI policy document that raises major ethical concerns, s

AI应该奉承我们,修复我们还是只是通知我们?AI应该奉承我们,修复我们还是只是通知我们?

Should AI flatter us, fix us, or just inform us?

您希望您的AI如何对待您?这是一个严重的问题,这是Openai首席执行官Sam Altman以来,自GPT-5在本月初的颠簸发布以来,显然一直在咀嚼。他面对三元素。应该聊天我们,冒着可能会从…

“当气泡发生...”:Sam Altman说AI炒作与2000年崩溃之前的DOT COM BOOM相比

"When Bubbles Happen...": Sam Altman Says AI Hype Compares To Dot Com Boom Before 2000 Crash

“当气泡发生时...”:山姆·阿尔特曼(Sam Altman)说,AI炒作与2000年Crassopenai之前的Dot Com Boom相比,山姆·阿尔特曼(Sam Altman)说,对人工智能的投资者热情可能已经看起来像一个泡沫。记者上周。 “当泡沫发生时,聪明的人对真理的内核感到过分激发。” Altman将人工智能支出的激增与1990年代的互联网繁荣相比,当时炒作在纳斯达克造成的价值降低了近80%之前,他并不孤单。阿里巴巴联合创始人乔·泰(Joe Tsai),布里奇沃特(Bridgewater)的雷·达利奥(Ray Dalio)和阿波罗全球管理经济学家托斯滕·斯洛克(Torsten Sl

山姆·奥特曼(Sam Altman)悄悄地利用了民主党的顶级特工,以帮助Chatgpt Plot Plot营利性

Sam Altman Quietly Taps Top Democrat Operatives To Help ChatGPT Plot For-Profit

sam altman悄悄地轻拍民主党的最高特工,以帮助谋求统治他的追求,以占主导地位的LLM竞赛,OpenAI首席执行官Sam Altman正在攻击老兵民主党人“与民主党建立了良好联系”,他们与民主党机构有很好的联系,以与加利福尼亚政治家的追求,以辩护,以辩护,以辩护,辩护,辩护,Politique confuct。 Lehane,Brian Brokaw,Ronnie Chatterji,Marisa Moret,Sam Altman,Ann O'Leary,Daniel Zingale,Peter Ragone,Laphonza Butler | Claudine Hellmuth/Pol

为什么GPT-5的岩石推出是我们在超级智能炒作中需要的现实检查

Why GPT-5's rocky rollout is the reality check we needed on superintelligence hype

Altman表示迫在眉睫的一年后,GPT-5是我们得到的吗?

OpenAI将用户对GPT-5

OpenAI Brings GPT-4o Back After Users Revolt Over GPT-5

OpenAI将用户对GPT-5OPENAI的起义在其最新的GPT-5型号推出后,用户对GPT-5OPENAI的起义带回了GPT-4O,此后用户抱怨新型号比较la脚。该公司将新模型宣传为“最聪明,最快,最有用的迄今为止”,该模型使用“实时路由器”在更有效的模型之间切换基本问题与更深入的理由,以提高更复杂的需求。在Reddit AMA期间,OpenAI首席执行官Sam Altman回答了一个问题,他说GPT -5的写作质量比以前的模型更好 - 只有几个Redditors说,新模式感到“无菌”和“更糟”,并简短而干燥地回答了“淡淡,干燥”。 Altman发布在X上的Altman发布:“我们肯定会低估

您可能错过了GPT-5

What you may have missed about GPT-5

在OpenAI上周四发布GPT-5之前,首席执行官Sam Altman表示,其功能使他感到“相对于AI毫无用处”。他说,从事它的重量,他想象原子弹的开发商一定会感到。随着科技巨头汇聚在做或多或少相同事情的模型上,Openai的新……