人工智能、机器学习和深度神经网络的进步带来了人类和动物学习和智能的新发现。DeepMind 家族中最近推出的人工智能代理 muZero 可以在对其所处世界的信息有限且对当前和未来空间特征具有高度不确定性的情况下完成各种任务。为了执行此任务,muZero 仅使用三个功能,这些功能既通用又足够具体,可以在各种任务中进行学习,而不会在不同环境中过度概括。同样,人类和动物能够在复杂的环境中学习和改进,同时从其他环境中迁移学习,而不会过度概括。特别是,哺乳动物海马外系统 (eHPCS) 可以指导空间决策,同时编码和处理空间和上下文信息。与 muZero 一样,eHPCS 也能够根据环境变化和环境线索的程度和重要性调整上下文表示。在本意见中,我们将论证 muZero 功能与海马系统的功能相似。我们将展示 muZero 模型的不同组件为思考 eHPCS 中的可推广学习提供了一个框架,并且可以通过 muZero 等人工智能代理的进步来评估细胞表征在相似和不同情境之间如何发生转变。我们还将解释人工智能代理的进步将如何提供框架和预测,以研究状态变化和神经元放电之间的预期联系。具体来说,我们将讨论有关 eHPCS 的可测试预测,包括重放和重新映射的功能,这些预测是由 muZero 学习背后的机制提供的。最后,我们介绍了 muZero 等代理如何帮助阐明有关神经功能的潜在问题的其他方式,以及这些代理如何揭示潜在的预期答案。
仅举几个里程碑:在2019年Google(与NASA一起)获得了“量子至上”,仅在2020年被中国以100亿美元的价格超越中国。CRISPR-CAS9基因组编辑技术于2020年获得诺贝尔奖,而CRISPR Therapeutics的市值为110亿美元。DeepMind解决了一个主要的蛋白质折叠挑战(Alphafold),而Muzero程序标志着自我学习的AI中的另一个里程碑(Muzero可以教会自己参加比赛,国际象棋和Atari游戏)。OpenAI发布了GPT-3,该语言模型使用深度学习来产生类似人类的文本。,列表还在继续。
决策感知模型学习的想法,该模型应该在决策重要的地方准确地是准确的,并且在基于模型的强化学习中获得了突出的重要性。虽然已经建立了有希望的理论结果,但缺乏利用决策损失的算法的经验性能,尤其是在连续控制问题中。在本文中,我们介绍了一项关于决策感知强化学习模型所需组件的研究,并展示了能够实现良好表现算法的设计选择。为此,我们对该领域的算法思想提供了理论和实证研究。我们强调,在Muzero的作品系列中建立的经验设计决策,最重要的是使用潜在模型,对于在相关算法中实现良好的性能至关重要。此外,我们表明Muzero损耗函数在随机环境中有偏见,并确定这种偏见具有实际后果。在这些发现的基础上,我们概述了哪些决策吸引的损失功能最好在经验方案中使用,从而为该领域的从业者提供了可行的见解。
FLI 建议改进该提案,以应对 AI 领域的最新和未来技术发展。GPT-3、DALL·E 和 MuZero 等新系统的应用数量不详,试图通过单一用途对它们进行分类可能会让日益变革性的技术逃避监管审查。例如,GPT-3 是一款可以生成已被证明对穆斯林有偏见的文本的 AI 应用程序。具体来说,在超过 60% 的案例中,GPT-3 创建的句子将穆斯林与枪击、炸弹、谋杀和暴力联系起来 [1]。FLI 认为,无论是在用于生成报纸图片下的标题(低风险,根据提案不受监管)还是在描述人脸以进行实时生物特征识别(高风险,根据提案受监管)时,这些类型的 AI 应用程序中的偏见都应该受到监管。
I. 引言 微电网是一种很有前途的概念,它可以解决将分布式可再生能源和储能系统整合到电网中的挑战。在线优化是根据系统的实时状态来调度微电网的运行,是确保微电网经济运行的关键技术。然而,可再生能源的不确定性给微电网的在线优化带来了巨大的挑战。为了解决这个问题,研究人员提出了几种在线优化方法,如模型预测控制 (MPC) [1] 和基于近似动态规划 (ADP) 的算法 [2]。然而,上述方法的在线优化性能依赖于预测信息。因此,性能受到可再生能源和负荷功率的预测精度的影响。为了减少对预测的依赖,已经提出了几种其他的微电网在线优化方法,包括 Lyapunov 优化 [3]、CHASE 算法 [4] 以及最近开发的基于深度强化学习 (DRL) 的优化方法(例如深度 Q 网络 (DQN) [5]、MuZero [6])。
强化学习 (RL) 算法通常利用学习和/或规划技术来得出有效的策略。事实证明,将这两种方法结合起来在解决复杂的顺序决策挑战方面非常成功,AlphaZero 和 MuZero 等算法就是明证,它们将规划过程整合到参数搜索策略中。AIXI 是通用贝叶斯最优代理,它利用通过全面搜索进行规划作为寻找最优策略的主要手段。在这里,我们定义了一个替代的通用贝叶斯代理,我们称之为 Self-AIXI,与 AIXI 相反,它最大限度地利用学习来获得良好的策略。它通过自我预测自己的动作数据流来实现这一点,这些数据流的生成方式与其他 TD(0) 代理类似,是通过对当前的在策略(通用混合策略)Q 值估计采取动作最大化步骤来生成的。我们证明 Self-AIXI 收敛到 AIXI,并继承了一系列属性,如最大 Legg-Hutter 智能和自我优化属性。
引言微电网是一个很有前途的概念,它可以解决分布式可再生能源和储能系统融入电网的挑战。在线优化是根据系统的实时状态对微电网的运行进行调度,是确保微电网经济运行的关键技术。然而,可再生能源的不确定性给微电网的在线优化带来了巨大的挑战。为了解决这个问题,研究人员提出了几种在线优化方法,如模型预测控制(MPC)[1]和基于近似动态规划(ADP)的算法[2]。然而,上述方法的在线优化性能依赖于预测信息。因此,性能受到可再生能源和负荷功率的预测精度的影响。为了减少对预测的依赖,已经提出了其他几种微电网在线优化方法,包括Lyapunov优化[3]、CHASE算法[4]以及最近开发的基于深度强化学习(DRL)的优化方法(例如深度Q网络(DQN)[5]、MuZero [6])。与传统的微电网在线优化方法(例如MPC)相比,基于DRL的算法通过历史可再生能源发电和负载序列来学习操作系统,并且可以在不使用任何预测信息的情况下进行近似最优调度[6]。然而,上述工作主要关注具有单个电池储能系统(BESS)的微电网的在线优化,未能解决BESS的分布式位置特性。随着商业和家庭储能技术的快速发展,大量BESS将安装在微电网的分布式位置。