LTM Benchmark: Improvements and new reports
在 GoodAI,我们致力于开发能够持续和终身学习的代理。作为我们努力的一部分,我们之前已经开源了 GoodAI LTM 基准,这是一套旨在评估任何对话代理的长期记忆 (LTM) 能力的测试。在这个基准中,所有任务都作为代理和我们的虚拟测试人员之间一次非常长的对话的一部分进行。基准交织了来自不同任务的信息和探索性问题,尽管特别注意将它们编织成自然对话。LTM = 长期记忆作为我们对具有 LTM 的代理进行研究的直接结果,GoodAI LTM 基准在不断发展。对我们来说,它是评估我们的代理和验证我们的假设的宝贵工具。此外,它帮助我们描述不同代理失败的方式,因此它为我们提供了目标。在 GoodAI
Introducing GoodAI LTM Benchmark
作为我们在持续学习领域研究工作的一部分,我们正在开源一个基准,用于测试代理在非常长的对话中执行涉及高级使用记忆的任务的能力。除其他外,我们评估代理在需要动态维护记忆或长期整合信息的任务上的表现。我们正在开源:现行的 GoodAI LTM 基准。我们的 LTM 代理。我们的实验数据和结果。我们表明,信息的可用性是解决这些任务的必要条件,但不是充分条件。在我们的初始基准中,具有 8k 上下文的对话 LTM 代理与具有 128k 个令牌的长上下文 GPT-4-1106 相当。在内存要求高出 10 倍的更大基准测试中,我们的具有 8k 上下文的对话式 LTM 代理的性能比上下文大小为 128,000
GoodAI LTM Benchmark v3 Released
GoodAI LTM 基准测试的主要目的一直是作为我们在开发能够持续和终身学习的代理方面取得进展的客观衡量标准。但是,我们也希望它对开发此类代理的任何人都有用。为了实现这一点,我们已将此版本定位为更易于理解并产生更标准化的结果,我们希望这些结果更容易进行比较和分析。从基准测试的第一个版本开始,我们就将特定的测试实例分组到数据集或任务类型中。例如,有一个名为“购物清单”的数据集,我们可以从中抽取任意数量的不同测试实例,以评估代理记住一系列物品并保留用户购物清单的更新版本的能力。在早期版本中,每个测试可能会产生任意数量的分数点,并且这些分数点未标准化。这可能导致令人困惑的情况,即通过高度复杂的测试
China to cut interest rates in response to trade war with US
Half-point cut to be made to banks’ reserve requirement ratio and 1tn yuan released into banking systemBusiness live – latest updatesChina will cut interest rates and inject some much-needed liquidity into the domestic economy, as the country steels itself for a bruising trade war with the US.The Pe
Maths isn’t dull – it’s playful, beautiful and empowering | Letters
Maths teacher Olivia Mariner says negative media portrayals add an unnecessary hurdle to the subjectI was sorry to read that Hannah J Davies had such an uninspiring experience of maths lessons at school that she chose GCSE maths as a benchmark for the dullness of David Tennant’s new ITV programme (G
JOLTS revisions point to even weaker recent jobs market
- by New Deal democratBefore I tackle this morning’s consumer inflation report, yesterday I promised an update of the benchmark revisions to the various JOLTS indexes, for reasons that I think will be apparent upon viewing the graphs.As I wrote yesterday, job openings for the previous 12 months were
I Tried Making my Own (Bad) LLM Benchmark to Cheat in Escape Rooms
最近,DeepSeek 发布了他们的最新模型 R1,一篇又一篇文章称赞其相对于成本的性能,以及此类开源模型的发布如何真正永远改变 LLM 的发展方向。这真是令人兴奋!而且,范围太大了,无法一一列举……但是当像 DeepSeek 这样的模型 […]The post I Tried Making my own (Bad) LLM Benchmark to Cheat in Escape Rooms 首次出现在 Towards Data Science 上。
Detecting Anomalies in Social Media Volume Time Series
我如何检测社交媒体量中的异常:基于残差的方法照片由 Joshua Hoehne 在 Unsplash 上拍摄在社交媒体时代,分析对话量对于了解用户行为、检测趋势以及最重要的是识别异常至关重要。了解异常发生的时间可以帮助管理层和营销部门应对危机情况。在本文中,我们将使用来自 Twitter 的真实示例,探索一种基于残差的方法来检测社交媒体量时间序列数据中的异常。对于这样的任务,我将使用 Numenta Anomaly Benchmark 的数据,它提供了 Twitter 帖子的成交量数据,其基准测试中有 5 分钟的帧窗口。我们将从两个角度分析数据:作为第一个练习,我们将使用完整数据集检测异常,然
我上周在 Twitter 上发布的一些有趣的链接(我也在 Mastodon、Threads、Newsmast 和 Bluesky 上发布了这些链接):人工智能在保护珊瑚礁中的应用:https://www.datasciencecentral.com/how-machine-learning-helps-save-coral-reefs-by-listening/高等教育对人工智能的准备仍然不足:https://www.insidehighered.com/news/tech-innovation/artificial-intelligence/2024/10/16/campus-tech-le
Visualizing The EU's Critical Minerals Gap By 2030
到 2030 年欧盟关键矿产缺口可视化欧盟的《关键原材料法》列出了若干雄心勃勃的目标,以增强其关键矿产供应链的弹性。正如 Visual Capitalist 的 Bruno Venditti 在下文中详细介绍的那样,该法案包括非约束性目标,要求欧盟建立足够的采矿能力,以便欧盟内的矿山可以满足其 10% 的关键矿产需求。此外,该法案还设定了 40% 的需求通过欧盟内部加工来满足,25% 的需求通过回收来满足的目标。在该法案于 2024 年 5 月通过几个月后,这张图表突显了欧盟旨在克服的挑战的规模。该数据完全来自 Benchmark Mineral Intelligence,截至 2024 年
Spellbook Launches Contract ‘Benchmarks’ to Show What’s Market
Spellbook 是法律 genAI 应用程序的早期先驱,它推出了 Benchmarks,这是一款“一目了然”的工具,可帮助律师快速发现合同可能“不合时宜”的地方......
Grad School, Entrepreneurship, and VC with Dr. Vijay Pande (a16z)
6 月份,斯坦福生物技术集团邀请了 a16z 普通合伙人兼 a16z Bio Fund 创始人 Vijay Pande 博士进行炉边谈话。讨论的重点包括:在生物学和技术的交叉领域进行创新在 a16z bio 基金中形成投资论文及其自成立以来的发展数据在生物技术公司中不断演变的角色从创业、风险投资和研究生院中吸取的教训您可以在下面访问整个录音关于作者Sevahn VorperianSevahn 是 Quake 实验室的研究生,也是化学工程系的博士生。她对所有测序事物都充满热情,并利用各种测量技术来获得对人类健康和疾病的定量见解。Sevahn 获得了 NSF 研究生奖学金、Benchmark 斯坦
2015年12月,华盛顿大学组织的The MegaFace Benchmark国际竞赛结果总结,来自世界各地的人脸识别算法和系统进行了角逐。令所有参赛者大吃一惊的是,此前默默无闻的俄罗斯团队 NtechLab 凭借 FindFace 算法获胜。
Sound Medicine – Challenge to the Affordable Care Act
我整个星期都在库拉姆(Coulam),费尔德曼(Feldman)和道德(Dowd)发表博客:《平价医疗法案》(Pub。L.111-148 [2010]),以平均为付款领域的竞争竞标领域的竞争竞标,逐步过渡到2015年竞争性的Benchmark Price竞争。首次出现在偶然的经济学家中。
Why was competitive bidding stripped from health reform?
我整个星期都在库拉姆(Coulam),费尔德曼(Feldman)和道德(Dowd)发表博客:《平价医疗法案》(Pub。L.111-148 [2010]),以平均为付款领域的竞争竞标领域的竞争竞标,逐步过渡到2015年竞争性的Benchmark Price竞争。首次出现在偶然的经济学家中。 Sound Medicine是由印第安纳大学医学院和WFYI公共广播电台制作的广播节目。我正在播放本周的广播,谈论对ACA的法律挑战:《平价医疗法案》(也称为2011年医疗改革法),这是接近在美国最高法院面前的听证会,可能是在[…]邮政的《邮政医学》 - 对《负担得起的护理法》首次出现在偶然经济学家上的