自动设计是实现机器人群的一种吸引人的方法。在这种方法中,设计师指定了群体必须执行的任务,而优化算法搜索了控制软件,该控制软件使机器人能够执行给定的任务。传统上,自动设计的研究集中在单个设计标准指定的任务上,采用基于单目标优化算法的方法。在这项研究中,我们研究是否可以适应现有的方法来解决并发设计标准指定的任务。我们专注于双标准案例。我们用一群E-Puck机器人进行实验,必须执行两个任务的序列:序列中的每个任务都是独立的设计准则,自动方法在优化过程中必须处理。我们考虑通过加权总和,超音速或l 2 -norm聚集并发标准的模块化和神经进化方法。我们将它们的性能与一种原始自动模块化设计方法的Cansarina进行了比较。普通话将迭代的F-race作为优化算法整合,以在不汇总设计标准的情况下进行设计过程。通过物理机器人进行现实的模拟和演示的结果表明,最佳结果是通过模块化方法以及设计标准未汇总的。
蒙特卡洛(MC)方法是一种用于增强学习问题的技术。它们通过平均与环境相互作用的完整互动中的所有状态平均样本回报来工作。尽管有应用,但尚未完全理解它们的收敛性。操作性策略迭代是MC方法的一种变体,具有一些附加约束,可以保证融合到最佳解决方案。但是,现有的证据不是最直接的证据,通常是从难以访问的出版物中引用的结果。本论文是对该主题的文献回顾,在一个地方完全介绍了融合的原始证明。它还讨论了简化证明的尝试的尝试,为将来的研究提供了可能的方向。
策略迭代是双人游戏中常用的一种技术,用于确定获胜者或计算收益,但据我们所知,尚未考虑过策略迭代的通用框架。受之前对简单随机游戏的研究启发,我们提出了一种基于 MV 链的策略迭代的通用形式化方法,用于在合适的完整格类上求解最小不动点方程。我们设计了可用于非扩展不动点函数的算法,这些函数分别表示为所谓的最小和最大分解。相应地,我们开发了两种不同的技术:从上方进行的策略迭代,它必须解决迭代可能达到的不动点不是最小的问题;从下方进行的策略迭代,它在算法上更简单,但需要更复杂的正确性论证。我们将我们的方法应用于解决能量游戏并计算概率自动机的行为指标。