© 作者 2022。开放获取。本文根据知识共享署名 4.0 国际许可获得许可,允许以任何媒体或格式使用、共享、改编、分发和复制,只要您给予原作者和来源适当的信用,提供知识共享许可的链接,并指明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可中,除非在材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可中,并且您的预期用途不被法定法规允许或超出允许用途,则您需要直接从版权所有者处获得许可。要查看此许可证的副本,请访问 http://creativecommons.org/licenses/by/4.0/。
强化学习(RL)可以将语言模型与非不同的奖励信号(例如人类偏好)相结合。但是,这些奖励信号的稀疏性引起了一个重大挑战 - 通常,整个输出只有一个奖励。这种奖励的稀疏性会导致学习效率低下和不稳定的学习。为了应对这一挑战,我们的论文介绍了一个新颖的框架,该框架利用大型语言模型(LLM)的批评能力在RL培训期间产生中间步骤奖励。我们的方法将一个循环模型与批评语言模型配对,该模型可为策略输出的每个部分提供反馈。然后将此反馈转换为可用于指导RL训练过程的令牌或跨度奖励。我们在两个不同的设置下投资了这种方法:一种政策模型较小,并与更强大的评论家模型配对,而单一语言模型则履行两个角色的另一个。我们评估了三个文本生成任务的方法:情感控制,语言模型排毒和摘要。的结果表明,在自动评估和人类评估的支持下,纳入了人造的内在奖励可以显着提高样本效率和策略模型的整体绩效。该代码可在Google Research Github *下获得。
摘要 本文提出了一种基于现代深度强化学习的微电网多时间尺度协调运行方法。考虑到不同储能设备的互补特性,所提出的方法通过引入分层的两阶段调度模型实现了电池和超级电容器的多时间尺度协调。第一阶段使用每小时预测数据做出初步决策,而不考虑不确定性,以最小化运营成本。第二阶段旨在为第一阶段的决策生成纠正措施,以补偿实时可再生能源发电波动。第一阶段被表述为非凸确定性优化问题,而第二阶段被建模为马尔可夫决策过程,通过熵正则化的深度强化学习方法即软演员-评论家来求解。软演员-评论家方法可以有效地解决探索-利用困境并抑制变化。这提高了决策的鲁棒性。仿真结果表明,可以在两个阶段使用不同类型的储能设备来实现多时间尺度的协调运行。证明了所提方法的有效性。关键词:微电网运行,混合储能系统,深度强化学习
这项工作在头部(VIH)框架中提出了一种新颖的声音,该框架集成了大型语言模型(LLM)和语义理解的力量,以增强复杂环境中的机器人导航和互动。我们的系统从战略上结合了GPT和Gemini Power LLM作为加强学习(RL)循环中的演员和评论家组成部分,以进行连续学习和适应。vih采用了由Azure AI搜索提供动力的复杂语义搜索机制,使用户可以通过自然语言查询与系统进行交互。为了确保安全并解决潜在的LLM限制,该系统将增强学习与人类反馈(RLHF)组件结合在一起,仅在必要时才触发。这种混合方法可带来令人印象深刻的结果,达到超过94.54%的成功率,超过了既定的基准。最重要的是,VIH框架提供了模块化可扩展的体系结构。通过简单地修改环境,该系统展示了适应各种应用域的潜力。这项研究为认知机器人技术领域提供了重大进步,为能够在现实世界情景下能够复杂的推理和决策制定的智能自治系统铺平了道路,这使我们更接近实现人工通用情报。
主管博士慕尼黑大学的AliErtürk中风和痴呆研究研究所(ISD)诊所第一审查员:博士AliErtürk第二评论家:博士教授医学MarcoDüring国防日期:2020年11月25日
传统的强化学习 (RL) 策略通常以固定的控制率实施,通常忽略控制率选择的影响。这可能导致效率低下,因为最佳控制率会随任务要求而变化。我们提出了多目标软弹性演员评论家 (MOSEAC),这是一种使用弹性时间步骤动态调整控制频率的离策略演员评论家算法。该技术通过选择最低可行频率来最大限度地减少计算资源。我们证明 MOSEAC 在理论层面上收敛并产生稳定的策略,并在实时 3D 赛车游戏中验证了我们的发现。在能源效率和任务有效性方面,MOSEAC 明显优于其他可变时间步骤方法。此外,MOSEAC 表现出更快、更稳定的训练,展示了其在机器人技术中用于现实世界 RL 应用的潜力。
摘要。根据消费者行为选择适当的营销策略是一个复杂的决定,涉及多标准分析以及在这种行为中纳入固有的不确定性。尽管存在许多多标准决策方法,但很少有效地解决不确定性。在这项研究中,主要目的是在中性粒子框架内选择合适的营销策略,以适应消费者行为的复杂歧义。尽管评论家方法被广泛用于多标准决策,但其传统版本努力为消费者行为固有的不确定性充分建模。中性哲学作为一种处理不确定性的哲学方法,为增强评论家方法提供了机会。这种增强结果导致了这种现象的更精确的模型,从而促进了在一系列营销策略中最佳选择。根据结果,通过批评家中性粒细胞的方法进行的基于消费者行为和专家标准的最合适的营销策略是增强食品行业的现实营销,时尚零售的数字营销以及房地产的体验式营销。
可再生能源渗透率的增长使供应变得更加不确定,并导致系统不平衡加剧。这种趋势与单一不平衡定价相结合,为平衡责任方 (BRP) 在不平衡解决机制中进行能源套利提供了机会。为此,我们提出了一种基于分布式强化学习的电池控制框架。我们提出的控制框架采取了风险敏感的视角,允许 BRP 调整其风险偏好:我们的目标是优化套利利润和风险度量(本研究中的风险价值)的加权和,同时限制电池的每日循环次数。我们使用 2022 年比利时的不平衡价格评估我们提出的控制框架的性能,并比较两种最先进的 RL 方法,即深度 Q 学习和软演员-评论家 (SAC)。结果表明,分布式软演员-评论家方法优于其他方法。此外,我们注意到,只有当代理对价格更确定时,我们的完全规避风险的代理才会适当地学会通过对电池进行(放电)充电来对冲与未知不平衡价格相关的风险。
摘要:熵杂志的三个特殊问题已致力于“信息处理和体现,嵌入,实用认知”的主题。他们解决了形态计算,认知机构和认知的演变。贡献显示了研究界对计算主题及其与认知关系的观点的多样性。本文试图阐明有关认知科学核心的计算当前辩论。它是以对话的形式编写的,两位作者之间,代表两个相反的立场,内容涉及哪个计算和可能是可能是与认知有关的问题。鉴于两位研究人员的不同背景,涵盖了物理学,计算和信息的哲学,认知科学和哲学,我们以适合这种多学科/跨学科概念分析的苏格拉底对话形式发现了讨论。我们按以下方式进行。首先,支持者(GDC)引入了信息计算框架,作为一种自然主义模型的体现,嵌入和制定的认知模型。接下来,评论家(MM)从新的解释方法的角度提出了异议。随后,支持者和评论家提供了答复。的结论是,在理解体现认知的理解中,计算具有基本作用,被理解为信息处理。