Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势,训练它们的大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同机制联系起来的有趣想法:我们能否开发一种使用……初始化大型语言模型的方法
Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models
这篇论文被 NeurIPS Workshop 2024 的自适应基础模型 (AFM) 研讨会接受。与虚拟助手 (VA) 的后续对话使用户能够无缝地与 VA 交互,而无需使用关键字反复调用它(在第一个查询之后)。因此,从后续查询中进行准确的设备导向语音检测 (DDSD) 对于实现自然的用户体验至关重要。为此,我们探索了大型语言模型 (LLM) 的概念,并在对后续查询进行推理时对第一个查询进行建模(基于 ASR 解码的文本),通过……
Computational Bottlenecks of Training Small-Scale Large Language Models
这篇论文被 NeurIPS Workshop 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。虽然大型语言模型 (LLM) 主导着人工智能领域,但由于消费者对成本和效率的要求,小规模大型语言模型 (SLM) 正受到关注。然而,对 SLM 的训练行为和计算要求的研究有限。在本研究中,我们通过检查各种超参数和配置(包括 GPU 类型、批量大小等)的影响,探索了训练 SLM(最多 2B 个参数)的计算瓶颈…
Transfer Learning for Structured Pruning under Limited Task Data
这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…
Google DeepMind at NeurIPS 2023
神经信息处理系统 (NeurIPS) 是世界上最大的人工智能 (AI) 会议。 NeurIPS 2023 将于 12 月 10 日至 16 日在美国新奥尔良举行。来自 Google DeepMind 的团队将在主会议和研讨会上发表 150 多篇论文。
DeepMind’s latest research at NeurIPS 2022
NeurIPS 是全球最大的人工智能 (AI) 和机器学习 (ML) 会议,我们很荣幸能够以钻石赞助商的身份支持此次活动,帮助促进 AI 和 ML 社区的研究进展交流。来自 DeepMind 的团队将展示 47 篇论文,其中包括 35 篇外部合作论文,这些论文均来自虚拟小组和海报会议。
#306 – Oriol Vinyals: Deep Learning and Artificial General Intelligence
Oriol Vinyals 是 DeepMind 的研究总监和深度学习负责人。请查看我们的赞助商来支持此播客: - Shopify:https://shopify.com/lex 获得 14 天免费试用 - Weights & Biases:https://lexfridman.com/wnb - Magic Spoon:https://magicspoon.com/lex 并使用代码 LEX 获得 5 美元折扣 - Blinkist:https://blinkist.com/lex 并使用代码 LEX 获得 25% 的高级折扣 EPISODE LINKS:Oriol 的 Twitter:ht
Grading Complex Interactive Coding Programs with Reinforcement Learning
[摘要] tl;dr:人们投入了大量精力来训练 AI 算法,使其能够玩一些计算机传统上难以玩的游戏,例如 Atari 发布的复古游戏、围棋、DotA 和星际争霸 II。在开发这些算法的过程中积累的实用机器学习知识为人们现在为许多游戏定期训练游戏 AI 代理铺平了道路。按照这条思路,我们专注于一类特定的游戏——学生作为编程作业的一部分开发的游戏。掌握 Atari 游戏的相同算法能帮助我们评分这些游戏作业吗?在我们最近的 NeurIPS 2021 论文中,我们说明了将交互式编码作业评分视为游戏的挑战,并介绍了“玩评分挑战”。简介大规模在线编码教育在过去十年中取得了显著的成功。快速的互联网速度、改进
Grading Complex Interactive Coding Programs with Reinforcement Learning
[摘要] tl;dr:人们投入了大量精力来训练 AI 算法,使其能够玩一些计算机传统上难以玩的游戏,例如 Atari 发布的复古游戏、围棋、DotA 和星际争霸 II。在开发这些算法的过程中积累的实用机器学习知识为人们现在为许多游戏定期训练游戏 AI 代理铺平了道路。按照这条思路,我们专注于一类特定的游戏——学生作为编程作业的一部分开发的游戏。掌握 Atari 游戏的相同算法能帮助我们评分这些游戏作业吗?在我们最近的 NeurIPS 2021 论文中,我们说明了将交互式编码作业评分视为游戏的挑战,并介绍了“玩评分挑战”。简介大规模在线编码教育在过去十年中取得了显著的成功。快速的互联网速度、改进
BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits
TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类对异常值会更稳健。尽
BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits
TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类可以对异常值更具鲁棒
Stanford AI Lab Papers and Talks at NeurIPS 2021
第三十五届神经信息处理系统会议(NeurIPS)2021 将于 12 月 6 日至 14 日以线上方式举办。我们很高兴与大家分享 SAIL 在主会议、数据集和基准测试轨道以及各种研讨会上展示的所有工作,您可以在下面找到论文、视频和博客的链接。我们 SAIL 社区的一些成员还担任 12 月 13 日至 14 日举行的几场激动人心的研讨会的共同组织者,所以我们希望您能关注它们!欢迎直接联系联系作者和研讨会组织者,以了解斯坦福大学正在进行的工作!主会议通过将表示解码为输入来提高神经网络的组合性作者:Mike Wu、Noah Goodman、Stefano Ermon联系方式:wumike@stanf
Stanford AI Lab Papers and Talks at NeurIPS 2021
第三十五届神经信息处理系统会议(NeurIPS)2021 将于 12 月 6 日至 14 日以线上方式举办。我们很高兴与大家分享 SAIL 在主会议、数据集和基准测试轨道以及各种研讨会上展示的所有工作,您可以在下面找到论文、视频和博客的链接。我们 SAIL 社区中的一些成员还担任 12 月 13 日至 14 日举行的几场激动人心的研讨会的共同组织者,所以我们希望您能关注它们!欢迎直接联系联系作者和研讨会组织者,以了解斯坦福大学正在进行的工作!主会议通过将表示解码为输入来提高神经网络的组合性作者:Mike Wu、Noah Goodman、Stefano Ermon联系方式:wumike@stan
Яндекс опубликовал подробный датасет с записью движения беспилотников
Yandex 发布了用于机器学习领域研究的无人机数据集。为 Shifts Challenge 发布的匿名数据集,该挑战赛是 NeurIPS 2021 国际会议的一部分。它包含超过 1,600 小时的自动驾驶车辆运动记录,分为 60 万个片段。开发人员收集了俄罗斯、以色列和美国不同天气条件下道路交通的数据。这是世界上此类类型中最大的公开数据集。 GitHub 上的数据集
Tuomas Sandholm: Poker and Game Theory
Tuomas Sandholm 是 CMU 的教授,也是 Libratus 的共同创始人,Libratus 是第一个在单挑无限注德州扑克游戏中击败顶级人类玩家的人工智能系统。他发表了 450 多篇关于博弈论和机器学习的论文,包括 2017 年 NIPS / NeurIPS 的最佳论文。他的研究和公司对现实世界产生了深远的影响,特别是因为他和他的团队不仅提出了新的想法,还建立了系统来证明这些想法在现实世界中是可行的。视频版本可在 YouTube 上观看。如果您想了解有关此播客的更多信息,请访问 https://lexfridman.com/ai 或在 Twitter、LinkedIn、Faceb
Лаборатория МФТИ приглашает пообщаться с искусственным интеллектом
12月3日至8日,蒙特利尔(加拿大)将举办机器学习和神经科学领域的重头戏——神经信息处理系统(NeurIPS)会议。在那里,MIPT 神经系统和深度学习实验室将与 Facebook 人工智能领域研究中心一起举办“对话智能挑战赛 2”竞赛。