这段对话来自 2014 年电影《机械姬》的早期场景,其中内森邀请凯勒布判断内森是否成功创造出了人工智能。1 强大的通用人工智能的成就长期以来一直吸引着我们的想象力,不仅因为它令人兴奋和担忧的可能性,也因为它为人类带来了一个全新的未知时代。斯图尔特·罗素在 2021 年 BBC 里斯讲座“与人工智能共存”的开场白中指出,“通用人工智能的最终出现将是人类历史上最大的事件。”2 在过去十年中,一系列令人印象深刻的成果引起了公众对强大人工智能可能性的广泛关注。在机器视觉方面,研究人员展示了在某些情况下可以像人类一样甚至比人类更好地识别物体的系统。然后是游戏。复杂的策略游戏长期以来都与超强的智能联系在一起,因此当人工智能系统在国际象棋、雅达利游戏、围棋、将棋、星际争霸和 Dota 中击败最优秀的人类玩家时,全世界都注意到了。这不仅仅是人工智能击败了人类(尽管这在第一次发生时令人震惊),而是他们如何做到这一点的不断进步:最初是通过向人类专家学习,然后是自我学习,然后是从头开始自学游戏原理,最终产生单一系统,
摘要:有效但充分的探索仍然是强化学习(RL)的关键挑战,尤其是对于马尔可夫决策过程(MDP),具有巨大的动作空间。以前的方法通常涉及将原始动作空间投射到潜在空间或采用环境动作面具以减少动作的可能性。尽管如此,这些方法通常缺乏可解释性或依赖专家知识。在这项研究中,我们介绍了一种新颖的方法,用于自动降低具有离散动作空间的环境中的动作空间,同时保持可解释性。所提出的方法以双重目的学习了特定于州的面具:(1)消除对MDP最小影响的动作,以及(2)在MDP中具有相同行为后果的汇总行动。具体来说,我们介绍了一个新颖的概念,称为国家(BMA)的行动(BMA)来量化MDP内行动的行为后果,并设计一个专门的掩码模型以确保其二进制性质。至关重要的是,我们提出了一个实用的学习程序,用于培训掩模模型,利用任何RL策略收集的过渡数据。我们的方法旨在插入插件和适应所有RL策略,为了验证其有效性,将其集成到两种突出的RL算法中,即DQN和PPO。从迷宫,Atari和µRTS2获得的实验结果显示在RL学习过程中有很大的加速,并且引入方法促进了促进的性能改善。
模仿世界模型推断中的实际相互作用轨迹已被证明可以提高基于模型的强化学习(MBRL)算法的样本效率。许多方法直接使用已知状态序列进行推理。但是,这种方法无法通过捕获状态之间的细微差异来提高推理的质量。很像人类如何从这种差异中推断出事件发展的趋势,在这项工作中,我们引入了基于AMBA的世界模型(GLAM),从而通过感知和预测国家之间的变化来提高推理质量。GLAM包括两个基于MAMBA的平行推理模块Gmamba和Lmamba,它们分别着重于在推理过程中从全球和Local观点感知差异。gmamba专注于识别输入序列中状态之间的变化模式,并利用这些模式来增强未来状态变化的预测。lmamba强调通过感知相邻状态的差异,强调有关未知信息的推理,例如奖励,终止信号和视觉表示。通过整合两个模块的优势,魅力四射是环境变化的较高价值变化,从而为代理提供了更有效的基于想象力的训练。我们认为,我们的方法在Atari 100k基准上的非恶意人类得分中的现有方法优于现有方法。
1主要功能3 1.1安装。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。3 1.2入门。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。5 1.3强化学习技巧和技巧。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 1.4强化学习资源。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。12 1.5 RL算法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。12 1.6示例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。13 1.7矢量化环境。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。28 1.8政策网络。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。47 1.9使用自定义环境。 。 。47 1.9使用自定义环境。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>56 1.10回调。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>584 1.11张板集成。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>69 1.12集成。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>77 1.13 RL基线3动物园。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>82 1.14 SB3囊泡。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。84 1.15稳定的基线JAX(SBX)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。85 1.16模仿学习。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。86 1.17从稳定的生物线迁移。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。87 1.18与NAN和INF一起挖掘。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 90 1.19开发人员指南。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。87 1.18与NAN和INF一起挖掘。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。90 1.19开发人员指南。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。93 1.20节省和加载。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。95 1.21导出模型。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。96 1.22基础RL类。。。。。。。。。。。。。。。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>100 1.23 A2C。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>110 1.24 DDPG。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div>110 1.24 DDPG。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。。。。。。123 1.25 DQN。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。133 1.26她的。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。143 1.27 ppo。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。147 1.28囊。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。160 1.29 TD3。。。。。。。。。。。。。。。。。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>172 1.30 Atari包装纸。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 183 1.31环境用途。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div> 。 div>172 1.30 Atari包装纸。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>183 1.31环境用途。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>186 1.32自定义环境。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。188 1.33概率分布。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。192 1.34评估助手。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。206 1.35健身环境检查器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。207 1.36监视器包装器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。207 1.37记录仪。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。209 1.38动作噪声。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。218 1.39 UTILS。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。218 1.39 UTILS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。219
2引用模仿5 2.1什么是模仿?。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。5 2.2安装。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 2.3第一步。。。。。。。。。。。。。。。。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>6 2.4命令行接口。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>9 2.5专家。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>15 2.6轨迹。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>17 2.7奖励网络。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>19 2.8范围的限制。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。。。。。。。。。。。。。。21 2.9基准模仿。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 2.10基准摘要。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。26 2.11行为克隆(BC)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。28 2.12生成对抗模仿学习(GAIL)。。。。。。。。。。。。。。。。。。。。。。。。。。。31 2.13对抗性逆增强学习(AIRL)。。。。。。。。。。。。。。。。。。。。。。。。。。39 2.14匕首。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。48 2.15基于密度的奖励建模。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。57 2.16最大因果熵逆增强学习(MCE IRL)。。。。。。。。。。。。。。。。60 2.17偏好比较。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。64 2.18软Q模仿学习(SQIL)。64 2.18软Q模仿学习(SQIL)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。70 2.19使用行为克隆训练代理。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。72 2.20使用匕首算法训练代理。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。74 2.21使用生成对抗模仿学习训练代理。。。。。。。。。。。。。。。。。。。。。76 2.22使用对抗性逆增强学习训练代理。。。。。。。。。。。。。。。。。。。。110 2.23使用偏好比较学习奖励功能。。。。。。。。。。。。。。。。。。。。。。。140 2.24使用Atari上的偏好比较学习奖励功能。。。。。。。。。。。。。。。。。。149 2.25使用最大条件熵逆增强学习学习奖励功能。。。。155 2.26使用内核密度学习奖励功能。。。。。。。。。。。。。。。。。。。。。。。。。。。。162 2.27使用软Q模仿学习训练代理。。。。。。。。。。。。。。。。。。。。。。。。。。。。。165 2.28使用SAC使用软Q模仿学习训练代理。。。。。。。。。。。。。。。。。。。。。。。。167 2.29可靠地比较算法性能。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。168 2.30火车行为在自定义环境中进行克隆。。。。。。。。。。。。。。。。。。。。。。。。。。。。178
这段对话来自 2014 年电影《机械姬》的早期场景,其中 Nathan 邀请 Caleb 判断 Nathan 是否成功创造了人工智能。1 强大的通用人工智能的成就长期以来一直吸引着我们的想象力,不仅因为它令人兴奋和担忧的可能性,还因为它为人类带来了一个新的未知时代。Stuart Russell 在 2021 年 BBC Reith 讲座“与人工智能共存”的开幕式上表示,“通用人工智能的最终出现 [将是] 人类历史上最大的事件。” 2 在过去十年中,一系列令人印象深刻的成果引起了公众对强大人工智能可能性的广泛关注。在机器视觉方面,研究人员展示了在某些情况下可以像人类一样甚至比人类更好地识别物体的系统。然后是游戏。复杂的策略游戏长期以来一直与高级智能联系在一起,因此当人工智能系统在国际象棋、雅达利游戏、围棋、将棋、星际争霸和 Dota 中击败最优秀的人类玩家时,全世界都注意到了。这不仅仅是人工智能击败了人类(尽管这在第一次发生时令人震惊),而是他们如何做到这一点的不断进步:最初是通过向人类专家学习,然后是自我学习,然后是从头开始自学游戏原理,最终产生了可以学习、玩游戏并获胜的单一系统
AAU ASSAM农业大学ABF农业技术基金会Abi农业企业孵化器ABS ABS ABS ABS ABS ABS ABS ABS ABS ABS ACP意识创造计划ADG ADG额外总干事总干事总干事ASRA农业研究协会AESSRA农业经济学和社会科学研究协会在基因组教育中促进稻米研究工具AI AID AI AIR-INDID AIR-INDID AIR-INDID A. A-IDEA农业企业家协会农业企业家协会全印度录取AIMA AIMA AIMA全印度管理协会Altena Asian Asian Asian Asian农业农业长期实验网络Amara农业管理协会农业研究和农业农业研究协会农业农产品市场委员会ARGM年度稻米集团会议ARS农业研究服务ASCI印度ASC农业科学大会东南亚国家协会ASRB ASRB农业科学家ASTI农业科学和技术指标Samruddhi Investments and Consulting Services Ltd. Basu Bihar动物科学大学Bau Bihar农业大学BCIL生物技术联盟有限
•从多项选择问题中自动生成和标记知识组件S.(获得了会议最佳数据集奖)•在生成AI,W。Balu,V。Cerf等人时代保护科学完整性,《国家科学院学院论文集》,社论,第1卷。121,否。22,5月,2024年。•学习比较提示:结合学生日志中的见解和大型语言模型,T。Zhang,H。Kumar,R。Schmucker,A。Azaria,A。Azaria,T。Mitchell,T。Mitchell,AAAI教育工作室,20024年2月,2024年,•荷叶边和莱利:迈向自动吸引会话辅导系统,R。Schmucker,M。Xia,A。Azaria,T。Mitchell,T。Mitchell,Neurips,Neurips 2023 2023年生动AI的教育研讨会(GAIED),1223年12月,2023年,•阅读并收获回报:在说明手册的帮助下学习atari,Y。Wu,Y。Fan,A。Azaria,Y。Li,T。Mitchell,第37届神经信息处理系统会议(Neurips 2023),第37页,第37页,967--976,2023年12月。•LLM的内部状态知道何时说谎,A。Azaria,T。Mitchell,计算语言学协会的发现:EMNLP 2023,pp。967--976,2023年12月。•学习提供有用的提示:援助行动评估和政策改进,R。Schmucker,N。Pachapurkar,S。Bala,T。Mitchell,T。Mitchell,第18届欧洲技术增强学习会议,EC-TEL 2023,2023年9月。
ABI 农业企业孵化器 ADG 助理总干事 AEO 农业推广官员 AFOLU 农业、林业和其他土地使用部门 AgIn Agrinnovate 印度有限公司 AI 人工智能 AICRP 全印度协调研究项目 AICTE 全印度技术教育理事会 a-IDEA 农业创业创新发展协会 ANOVA 方差分析 APLDA 安得拉邦畜牧业发展局 APMC 农产品市场委员会 APSIM 农业生产系统 sIMulator ARS 农业研究站 ASEAN 东南亚国家联盟 ASPIRE 创新研究企业科学追求协会 ASRB 农业科学家招聘委员会 ATARI 农业技术应用研究所 BESTIU 印度工程科技创新大学 BIG 生物技术点火基金 BIRAC 生物技术产业研究援助委员会 CBC 能力建设委员会 CBU 能力建设单位 CCSMC 催化资本支持管理委员会 CCVEC 兽医继续教育和交流中心 CDC 职业发展中心 CGIAR 国际农业研究磋商小组农业研究 CHIRPS 气候危害组 红外降水与站点数据 CII 印度工业联合会 CIL 科罗曼达尔国际有限公司 CIPHET 中央收获后工程与技术学院,卢迪亚纳 CLD 因果回路图 COLLAgE 农业教育终身学习中心 CSIR 科学与工业研究理事会 CSKHPKV CSK 喜马偕尔邦 Krishi Vishwavidyalaya CSSRI 中央土壤盐分研究所 CTO 首席技术官 DBT 生物技术部 DPR 家禽研究局 DRDL 国防研究与发展实验室 DSSAT 农业技术转让决策支持系统
•将语言模型重新定位为嵌入模型:查找Compute-Timepimal配方; A. Ziarko,A。Jiang,B。Piotrowski,W。Li,M。Jamnik,P。Milo。神经2024•较大,正规化,乐观:计算和样品有效连续控制的缩放; M. Nauman,M。Ostaszewski,K。Jankowski,P。MiLo's,M。Cygan;神经2024(聚光灯)•微调加强学习模型秘密地忘记了缓解问题; M. Wolczyk,B。Cupial,M。Ostaszewski,M。Bortkiewicz,M。Zajac,R。Pascanu,L。Kucinski,P。Milo。 ICML 2024(聚光灯)•Magnushammer:一种基于变压器的前提选择方法; M. Miku La,S。Antoniak,S。Tworkowski,A。Jiang,J。PengZhou,ch。Galias,S。S.Syoceanu,H。Michalewski); ICRA 2020Galias,S。S.Syoceanu,H。Michalewski); ICRA 2020szegedy,L。Kuci´nski,P。Milo lo。,Y。Wu; ICLR 2024•聚焦变压器:上下文缩放的对比训练; S. Tworkowski,K。Staniszewski,M。Pacek,Y。Wu,H。Michalewski,P。Milo。神经2023•快速而精确:通过自适应子搜索调整计划范围; M. Zawalski,M。Tyrolski,K。Czechowski,D.Stachura,P.Piekos,T。Odrzygozdz,Y。Wu,L。Kucinski,P。Milo。 ICLR 2023(值得注意的前5%)•连续世界:持续强化学习的机器人基准; M. Wo Lczyk,M。Zajac,R。Pascanu,L。Kuci´nski,P。Milo; Neurips 2021•亚目标搜索复杂的推理任务; K. Czechowski,T。Odrzyg´o´zd´z,M。Zbysi´nski,M。Zawalski,K。Olejnik,Y。Wu,L。Kuci´nski,P。Milo lo; Neurips 2021•基于模型的加固学习(与L. Kaiser,M。Babaeizadeh,B。Osi´nski,R。Campbell,K。Czechowski,D。Erhan,C。Finn,P。Kozakakowski,S.Levine,S.Levine,S.Levine,S.Levine,R.Sepassi,R.Sepassi,G。Tucker,G.Tucker,H。Michalewski); ICLR 2020(聚光灯)•基于模拟的实用自主驾驶的增强加固学习(与B. Osi´nski,A。Jakubowski,P。Ziecina,P。Ziecina,CH。