Introducing GoodAI LTM Benchmark
作为我们在持续学习领域研究工作的一部分,我们正在开源一个基准,用于测试代理在非常长的对话中执行涉及高级使用记忆的任务的能力。除其他外,我们评估代理在需要动态维护记忆或长期整合信息的任务上的表现。我们正在开源:现行的 GoodAI LTM 基准。我们的 LTM 代理。我们的实验数据和结果。我们表明,信息的可用性是解决这些任务的必要条件,但不是充分条件。在我们的初始基准中,具有 8k 上下文的对话 LTM 代理与具有 128k 个令牌的长上下文 GPT-4-1106 相当。在内存要求高出 10 倍的更大基准测试中,我们的具有 8k 上下文的对话式 LTM 代理的性能比上下文大小为 128,000
GoodAI LTM Benchmark v3 Released
GoodAI LTM 基准测试的主要目的一直是作为我们在开发能够持续和终身学习的代理方面取得进展的客观衡量标准。但是,我们也希望它对开发此类代理的任何人都有用。为了实现这一点,我们已将此版本定位为更易于理解并产生更标准化的结果,我们希望这些结果更容易进行比较和分析。从基准测试的第一个版本开始,我们就将特定的测试实例分组到数据集或任务类型中。例如,有一个名为“购物清单”的数据集,我们可以从中抽取任意数量的不同测试实例,以评估代理记住一系列物品并保留用户购物清单的更新版本的能力。在早期版本中,每个测试可能会产生任意数量的分数点,并且这些分数点未标准化。这可能导致令人困惑的情况,即通过高度复杂的测试
LTM Benchmark: Improvements and new reports
在 GoodAI,我们致力于开发能够持续和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都作为代理和我们的虚拟测试人员之间一次非常长的对话的一部分进行。基准交织了来自不同任务的信息和探索性问题,尽管特别注意将它们编织成自然对话。LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI
Sam Altman,Masa Son的巨大“星际之乡”的举措,一月份的两个Egomaniacsback之间的热空气不过OpenAI在美国的基础设施将“立即”部署1000亿美元,我们说这是一个巨大的梦想,因为该计划是“花费1000亿美元的货币,而不存在并不存在的IRR,这不是正面的。”换句话说,只是另一个软银特别:假装扔疯狂的钱,马萨儿子根本没有。星际之门:花费1000亿美元的货币不存在来产生不积极的收益率 - 零海奇(@zerohedge),20255年1月22日,与Openai Sam Altman的仇恨是我们时代的亿万富翁的确定亿万富翁的竞争之一,甚至是我们的情绪,而不是很惊讶的是,我们
Inside OpenAI’s empire: A conversation with Karen Hao
在为麻省理工学院技术评论订阅者的广泛圆桌会议上,AI记者和作家Karen Hao谈到了她的新书《 AI帝国:Sam Altman Openai》中的《帝国:梦与噩梦》。她与执行编辑Niall Firth进行了讨论,谈到了她如何在2020年在MIT Technology Review的工作人员和…
Citizens as Bargaining Chips: Australia is Lagging on Hostage Diplomacy
Sarah Myatt |澳大利亚外交政策研究员图片来自Vilius Kukanauskas,通过Pixabay。人质外交不仅威胁... 凯瑟琳·马尔特曼(Catherine Maltman)|美国通过Wikimedia Commons源自Elvert Barnes的图像。美国民主(美国)是... akua nsiah | frica图像通过Unplash采购了Fom Rock Staar。致命的吸毒浪潮已经席卷了非洲...
Aversive conditioning and memory in the harvester Mischonyx squalidus (Arachnida: Opiliones)
在收割机正式s虫(Arachnida:opiliones)中的厌恶条件和记忆中,抽象性调理是一种联想学习的一种形式。在这里,我们研究了收割机正式的Squalidus(Roewer,1913)的学习和记忆能力,以检查短期(STM)和长期记忆(LTM)的形成。首先,我们训练了收割机将厌恶刺激(冲击)与中性刺激(茶气味)相关联。每个受试者都经过了三次连续试验,其中刺激之间持续了3s,间隔为1(STM)和30(LTM)分钟。随后,为了测试记忆,我们在选择舞台上引入了对象,他们可以在两个区域中的任何一个中都可以选择:浸透茶化学物质或空白。我们在调理阶段或之后的24小时立即进行此操作。在当天测试中,这两种
Oil Price Dip & Rising Demand Fuel Optimism for Airline Stocks
由于最近的地缘政治紧张局势以及缓解关税紧张局势的信号,石油价格的下跌正在显示积极的因素预计会增加航空旅行需求的情况。股票市场对航空公司行业显示出积极的迹象。 Latam Airlines LTM,Copa Holdings CPA和Skywest Skyw等股票显示出[…]邮政油价下涨和对航空公司股票的需求燃料乐观的迹象首先出现在旅行雷达 - 航空新闻中。
How bioengineering Professor Russ Altman uses AI
在新系列的第一个问答中,Altman解释了为什么他允许AI上课,拒绝推荐信,并对其未来持谨慎和乐观。
Sam Altman’s Journey to OpenAI Leadership
为什么重要的是:山姆·奥特曼(Sam Altman)的Openai领导力之旅探索了他对人工智能未来的崛起,远见和影响。
Some interesting links that I Tweeted about in the last week (I also post these on Mastodon, Threads, Newsmast, and Bluesky):Wikipedia kills AI summaries of its pages: https://www.extremetech.com/computing/wikipedia-editors-revolt-over-ai-summaries Given how many bots scrape Wikipedia for training d
Altman’s AI Diplomacy Goes Global
这是为何重要的:Altman的AI外交Goble Global探讨了Openai与海湾国家的战略联盟,以供电AI增长。
Sam Altman: The "Gentle Singularity" Is Already Here
我们已经生活在奇异之处的早期阶段吗?山姆·奥特曼(Sam Altman)这样认为。马克·扎克伯格(Mark Zuckerberg)刚刚放置了数十亿美元的赌注,元认为可以加速它。
O3 Pro在这里。山姆·奥特曼(Sam Altman)认为奇点可能也是如此。他们探讨了山姆·奥特曼(Sam Altman)的大胆说法,即奇异性已经开始,梅塔(Meta)的超级智慧野心以及迪斯尼针对中朱尼(Midjourney)的高风险提起诉讼。他们还分解了搜索交通自由度,机械化的工作自动化,以及在我们的快速频道部分中,gpts或项目是否更好地用于扩大AI工作流程。O3 Pro在这里。山姆·奥特曼(Sam Altman)认为奇点可能也是如此。他们探讨了山姆·奥特曼(Sam Altman)的大胆说法,即奇异性已经开始,梅塔(Meta)的超级智慧野心以及迪斯尼针对中朱尼(Midjourney)的高
OpenAI Reasserts Mission Amid Turmoil
这是为何重要的:在动荡之中,Openai Reasserts Mission探索了Altman返回后其非营利性根源和治理。
OpenAI Reasserts Mission Amid Turmoil
这是为何重要的:在动荡之中,Openai Reasserts Mission探索了Altman返回后其非营利性根源和治理。