摘要 ZX 图是一种强大的图形语言,用于描述量子过程,可应用于基础量子力学、量子电路优化、张量网络模拟等。ZX 图的实用性依赖于一组局部转换规则,这些规则可以应用于它们而不改变它们描述的底层量子过程。可以利用这些规则来优化 ZX 图的结构以用于一系列应用。然而,找到最佳的转换规则序列通常是一个悬而未决的问题。在这项工作中,我们将 ZX 图与强化学习结合起来,强化学习是一种旨在发现决策问题中最佳动作序列的机器学习技术,并表明训练有素的强化学习代理可以显著胜过其他优化技术,如贪婪策略、模拟退火和最先进的手工算法。使用图神经网络对代理的策略进行编码,可以将其推广到比训练阶段大得多的图表。
面对新客户时,许多因素会导致保险公司对该客户的要约的决定。除了提供保险的预期成本外,公司还必须考虑可能向客户提供的其他优惠,以及客户对价格差异的敏感程度。此外,公司经常针对可能依赖的特定客户投资组合,例如,年龄,位置和职业。鉴于这样的目标投资组合,公司可以根据公司是否希望在其投资组合中的客户来调制个人客户的报价。我们将调制要约的问题称为实现所需目标组合的投资组合追求问题。将投资组合追求问题作为一个顺序决策问题,我们为其解决方案设计了一种新颖的强化学习算法。我们在复杂的合成市场环境上测试了我们的方法,并证明它的表现优于基线方法,该方法模仿了当前行业的投资组合追求。
摘要:针对无人战斗机空战中的机动决策问题,本文提出了一种基于深度强化学习的无人战斗机自主机动决策方法。首先,建立敌我双方无人战斗机飞行机动模型及机动库。然后,考虑到无人战斗机俯仰角不同时各动作不同的状态转换效果,将俯仰角等10个状态变量作为状态空间。结合空战态势威胁评估指数模型,设计内部奖励与稀疏奖励相结合的两层奖励机制作为强化学习的评估依据。然后,根据异步优势演员-评论家(A3C)算法,构建全连接层的神经网络模型。通过多线程的方式,UCAV与环境不断交互学习,对模型进行训练,逐步学习到最优的空战机动对抗策略,并指导UCAV进行行动选择。该算法通过多线程异步学习,降低了样本间的相关性。最后,在三种不同的空战场景中验证了该方法的有效性和可行性。
环境监测是一个至关重要的领域,包括各种应用,包括海洋探索,野生动植物保护,生态系统评估和空气质量监测。从无法访问的位置和充满挑战的环境中收集准确,及时的数据是理解和解决环境问题的问题。机器人通过在前所未有的时空尺度上启用数据收集来提供有希望的解决方案。然而,仅依靠远程运行是不实际的,并限制了环境监测工作的效率和有效性。自主权在解锁机器人的全部潜力中起着关键作用,使其可以在复杂的环境中独立和聪明地操作。这项调查重点介绍了澳大利亚环境监测机器人中的高级决策问题。高水平的决策涉及战略计划和协调以优化数据收集。解决这些挑战使机器人可以在各种环境监测应用程序中自主浏览,探索和收集科学数据。尽管自动环境观察具有潜在的好处,但仍必须克服一些研究挑战。第一个挑战
能源是人类的必要条件,但是预计在未来几年中,当前的能源将受到限制,对环境显然具有破坏性后果。可再生能源正在作为解决可持续,环保和长期,成本效益的能源的解决方案。可再生能源替代方案能够以竞争性的长期价格在大多数应用中替换常规能源[1,2]。选择适当的投资能源是涉及不同因素和政策的任务。可再生能源决策可以看作是与标准和替代方案相关的多个标准决策问题。由于社会,技术,环境和经济因素的复杂性日益增加,该任务应考虑几个相互冲突的方面[3]。传统的单一标准决策方法无法处理当前系统的复杂性和此问题[4]。多标准方法提供了一种灵活的工具,该工具能够以不同的方式处理并汇集了广泛的变量,从而为决策者提供了有用的帮助,以绘制问题。这项工作证明了
本文 1 旨在建立一个框架,指导一个由简单、专业化、自利的代理组成的社会解决传统上被认为是单一的单代理顺序决策问题。使用分散式方法集体优化一个中心目标之所以具有挑战性,是因为难以描述非合作博弈的均衡策略概况。为了克服这一挑战,我们设计了一种机制来定义每个代理的学习环境,我们知道对于该代理,全局目标的最优解与代理优化其自身局部目标的纳什均衡策略概况相一致。社会作为一个代理经济体发挥作用,代理通过相互买卖操作环境状态的权利来学习信用分配过程本身。我们推导出一类分散式强化学习算法,它们不仅适用于标准强化学习,还适用于选择半 MDP 中的选项和动态组成计算图。最后,我们展示了社会固有的模块化结构对于更有效的迁移学习的潜在优势。
LPP和特殊情况的图形解决方案LPP简称:业务经理面临的大量决策问题涉及将资源分配给各种活动,并将利润增加或降低成本。通常,资源是稀缺的,并且在有限资源的限制内的活动数量是挑战。因此,经理必须决定如何最好地分配各种活动之间的资源。数学编程涉及优化特定函数,称为目标函数,但受给定的限制或约束。经理可能会面临确定适当的产品组合的问题,将目标功能作为可从组合中获得的利润最大化,以查看各种限制,例如原材料的可用性,劳动力供应的位置,市场消费等,线性编程问题线性问题线性编程与已知目标功能的优化功能的优化。它受到一组线性平等性和/或不平等的约束,称为约束。线性编程是一种数学技术,涉及以最佳标准的基础,以最佳方式分配有限的资源。
尽管强化学习(RL)可以解决许多具有挑战性的顺序决策问题,但在重新任务中实现零拍摄的转移仍然是一个挑战。困难在于为术任务找到一个良好的表示形式,以便代理商了解其对以前看到的任务的方式。为了实现零拍传递,我们介绍了函数编码器,该函数编码器是一种表示算法的表示算法,该算法将函数代表为学习的非线性基函数的加权组合。通过使用函数编码器来表示奖励功能或过渡函数,代理就当前任务如何与通过相干向量代表的预先看到的任务相关联。因此,代理能够在运行时间之间实现在相关任务之间进行转移,而无需训练。,我们通过通过功能编码器任务表示形式来增强基本的RL算法来展示三个RL字段中最先进的数据效率,渐近性能和训练稳定性。
有效的探索对于与其环境相互作用的智能系统至关重要,但是现有的语言模型通常在需要战略信息收集的场景中不足。在本文中,我们提出了P aprika,这是一种微调方法,使语言模型能够开发不限于特定环境的一般决策能力。通过培训来自不同任务的合成互动数据,这些数据需要各种策略,P Aprika教授模型,以探索和调整其行为,以基于环境回馈的情况,而无需梯度更新。实验结果表明,用P Aprika进行微调的模型可以有效地将其学到的决策能力传递到完全看不见的任务的情况下,而无需额外的培训。我们还介绍了一种提高P Aprika样品效率的课程学习算法。这些结果提出了通往AI系统的有希望的途径,该系统可以自主解决需要与外部世界相互作用的新型顺序决策问题。
在本文中,我们进行了一项研究,以利用 LLM 作为需要复杂数据分析的决策制定的解决方案。我们将决策问答定义为针对决策问题 Q、业务规则 R 和数据库 D 回答最佳决策 d best 的任务。由于没有可以检验决策问答的基准,我们提出了决策问答基准 DQA。它有两个场景,定位和建造,由两个视频游戏(Europa Universalis IV 和 Victoria 3)构建,它们的目标与决策问答几乎相同。为了有效地解决决策问答问题,我们还提出了一种新的 RAG 技术,称为迭代计划然后检索增强生成(PlanRAG)。我们基于 PlanRAG 的 LM 生成决策制定计划作为第一步,检索器生成数据分析查询作为第二步。所提出的方法在定位场景中比最先进的迭代 RAG 方法高出 15.8%,在建筑场景中比最先进的迭代 RAG 方法高出 7.4%。我们在 https://github.com/myeon9h/PlanRAG 上发布了我们的代码和基准。