是一种有前途的机器学习方法,用于主动流量控制(AFC),深入加固学习(DRL)已成功地用于各种情况下,例如在层状和易变的湍流条件下的固定气缸的拖动减少。但是,DRL在AFC中的当前应用仍然存在缺点,包括过度传感器使用,不清楚的搜索路径和不足的鲁棒性测试。在这项研究中,我们的目标是通过应用DRL引导的自我旋转来抑制圆柱体在锁定条件下的涡流诱导的振动(VIV)来解决这些问题。只有由圆柱体的加速度,速度和位移组成的状态空间,DRL代理就学习了一种有效的控制策略,该策略成功地抑制了99的VIV幅度。6%。通过在感觉运动提示的不同组合和灵敏度分析之间进行系统的比较,我们确定了与流动物理学相关的搜索路径的三个不同阶段,其中DRL代理会调整动作的幅度,频率和相位滞后。在确定性控制下,仅需要一点强迫来维持控制性能,并且体内频率仅受到略微影响,这表明目前的控制策略与利用锁定效应的效果不同。通过动态模式分解分析,我们观察到,在受控情况下,主导模式的增长率均为负面,表明DRL明显增强了系统稳定性。此外,涉及各种雷诺数字和上游扰动的测试证实了学习的控制策略是可靠的。最后,本研究表明,DRL能够用很少的传感器控制VIV,从而使其有效,有效,可解释和健壮。我们预计DRL可以为AFC提供一个一般框架,并对基础物理学有更深入的了解。
自组装成旋转的凝聚力组是活生物体在较宽的长度尺度上使用的常见策略[1]。在公共中心周围执行圆形轨迹已显示出可以增加对外部扰动的结构,并用于觅食捕食者保护目的的优化[2]。在宏观层面上,例子是鱼类[3]或一群昆虫[4],在微观水平上,细菌菌落中的涡流形成[5]。人为地,通过使用外部磁场来控制胶体微型机器人[6]和纳米颗粒[7]获得了旋转。通过使用光来局部控制Janus颗粒[8,9];或通过使用外部电场来进行圆形隔热[10-14]。涡旋形成的大多数机制都涉及内在的粒子手性[15-17]或吸引力的组合,以确保群体形成和颗粒间比对[18]。涡流形成,在该系统中,代理会积极转向人群[12],具有外部施加的扭矩[19,20],延迟的景点[21,22]或沉积活性液滴[23]。找到导致可控涡流形成的不同且简单的策略仍然是一个挑战。这可以在开发智能活动材料或自组织的微型机器人的开发中找到非常有趣的应用[6,24 - 29]。视觉类型的感知类型将相互作用限制在有限锥体内,将其作为对称轴和尖端处于粒子位置的邻居。基于视觉概念类型的导航策略对于许多生活系统都是固有的,并且导致了非常丰富的羊群行为,例如聚集,铣削或曲折[30 - 38]。这种有限的相互作用领域对于大多数动物来说都是共同的,这意味着已显示导致丰富的集体行为的非偏置相互作用[32,39 - 42]。受到此类生物系统的启发,最小的微观模型已显示为
概述 - 是什么让系统变得智能?智能这个术语通常没有得到很好的定义和理解,因为它是生物学、心理学和神经科学等各个领域的研究热点。人工智能利用这些领域的知识来创建机器和程序,这些机器和程序能够以智能和自适应的方式解决问题,只需要很少的问题特定知识而不是问题公式本身。智能系统的主要组成部分是学习组件、思考组件和行动组件:通常通过机器学习方法实现的学习组件要么使用大量可用数据进行训练,以基于监督学习或无监督学习评估状态和移动,要么使用生成的数据进行训练,这些数据是通过使用强化学习等试错方法自动获得的。强化学习因其对智能系统的自适应特性而成为行业和研究领域的热门领域。在强化学习中,自主实体或代理通过与环境进行类似生物的交互来训练自己实现给定目标。虽然没有明确的指导来实现该目标,但代理会获得数字反馈,这被称为奖励信号。奖励本身受到心理学领域条件反射的启发。代理必须调整其行为以最大化累积奖励的长期预期。在游戏中,目标是战胜强大的对手,或者在导航中,目标可能是在给定的限制内到达目标目的地。思考部分涉及对未来行动和事件的明确推理。在游戏中,可以考虑不同的未来场景来决定下一步行动,以最大限度地提高获胜概率,而在导航任务中,需要仔细的路线和在线规划,才能安全地将自主实体(如汽车)移动到所需的目的地,而无需不必要的
I. 引言随着火星立方体一号 (MarCO) 任务的成功和小型化技术的进步,小型卫星不再局限于在低地球轨道 (LEO) 运行。相反,通过低推力小型卫星进行深空探索、技术演示和有针对性的科学任务可能很快就会成为现实。事实上,即将到来的任务,如月球冰立方、LunaH-map 和 NEA Scout,将把小型卫星作为次要有效载荷搭载在 Artemis 1 上,部署到多体重力环境内的各种位置[1-3]。然而,混沌多体系统中航天器的轨迹和机动设计本质上是一个高维问题,而且由于结合了与低推力小型卫星相关的约束而变得更加复杂:有限的推进能力、运行调度约束以及固定但不确定的初始条件。虽然存在多种基于最优控制和动态系统理论 (DST) 的数值方法,用于在多体系统的近似动力学模型中构建低推力轨迹和机动剖面,但自主和稳健设计策略的开发需要一种替代方法。强化学习 (RL) 是天体动力学界越来越感兴趣的一类用于实现轨迹和机动设计的自主性的算法。RL 算法通常涉及代理与环境交互,通过对动态状态采取行动来最大化奖励函数。代理会探索环境,直到确定了决定每个状态下最佳动作的策略。如果制定得当,这些算法可以探索许多状态-动作对以确定最佳动作,同时限制对次优动作的探索。RL 方法已用于天体动力学中各种应用和动力学模型的轨迹和机动设计。例如,Dachwald 探索使用人工神经网络和进化算法设计配备低推力航天器到水星的转移 [ 4 ]。Das-Stuart、Howell 和 Folta 近期提出的方法利用 RL 和基本动力学结构来设计圆形限制三体问题 (CR3BP) 中周期轨道之间的复杂转移轨迹 [ 5 ]。此外,Scorsoglio、Furfaro、Linares 和 Massari 还使用演员-评论家深度强化学习 (DRL) 方法来开发地月空间近直线轨道航天器的对接机动 [ 6 ]。最近,Miller 和 Linares 应用著名的近端策略优化 (PPO) 算法来设计地月系统中遥远逆行轨道之间的转移,通过 CR3BP 进行建模 [ 7 ]。这些研究的成功为天体动力学界继续探索和扩展 RL 在多体轨迹设计策略中的应用奠定了宝贵的基础。具体来说,本文以这些先前的研究为基础,重点关注实施基于 RL 的轨迹设计方法的一个重要组成部分:制定一个奖励函数,该函数既反映了设计目标,也反映了影响恢复机动轮廓操作可行性的约束。该分析是在低推力 SmallSat 的轨迹设计背景下进行的,以快速访问位于与 CR3BP 中的周期轨道相关的稳定流形上的附近参考轨迹。
1. 威拉姆特大学阿特金森管理学院,900 State Street,塞勒姆,俄勒冈州,美国 97301 2. 再生项目,旧金山,加利福尼亚州 94104 *通信地址:tjohnson@willamette.edu 摘要。科学家和哲学家一直在争论人类是否可以信任先进的人工智能 (AI) 代理尊重人类的最大利益。但反过来呢?先进的 AI 代理会信任人类吗?衡量 AI 代理对人类的信任具有挑战性,因为——没有不诚实的代价——此类代理可能会对它们对人类的信任做出错误的回应。在这里,我们提出了一种激励机器决策的方法,而无需改变 AI 代理的底层算法或目标导向。在两个独立的实验中,我们随后在 AI 代理(来自 OpenAI 的大型语言模型 (LLM))和人类实验者(作者 TJ)之间的数百场信任游戏中使用此方法。在我们的第一个实验中,我们发现人工智能代理在面对实际激励时决定信任人类的比例高于做出假设决策时。我们的第二个实验通过自动化游戏和同质化问题措辞复制并扩展了这些发现。我们再次观察到人工智能代理在面对真实激励时具有更高的信任率。在这两个实验中,人工智能代理的信任决策似乎与赌注的大小无关。此外,为了解决人工智能代理的信任决策反映出对不确定性的偏好的可能性,实验包括两种条件,向人工智能代理提供非社交决策任务,提供选择确定或不确定选项的机会;在这些条件下,人工智能代理始终选择确定选项。我们的实验表明,迄今为止最先进的人工智能语言模型之一会根据激励改变其社交行为,并在受到激励时表现出与对人类对话者的信任一致的行为。关键词:人工智能;信任游戏;激励;机器行为;自然语言处理;实验经济学;行为经济学;博弈论 引言 人类是否应该相信先进的人工智能会尊重人类的最大利益?人工智能会表现出这样的信任吗?这些问题以及相关的协调问题 [1] 主导了关于人类如何适应先进人工智能的热门讨论 [2, 3],并促使研究人员将对人工智能的信任究竟意味着什么正式化 [4]。然而,在这场对话的背景下,存在着一个类似的问题:先进的人工智能代理信任人类吗?也就是说,抛开信任的内部或心理表征问题,先进的人工智能代理的行为是否表现出对人类的信任?毕竟,当代理缺乏信息、在正式机构之外运作或拥有诡计机会时,相互信任可以促进社会和经济交流 [5-7],因此,人工智能对人类的信任成为人类与人工智能代理交互环境中的关键关注点。然而,衡量人工智能代理对人类的信任是一项挑战,因为代理可能会对其对人类的信任做出错误的回应,而不存在与不诚实相关的成本。因此,我们设计了一种激励机器决策的方法,即通过为人工智能代理的服务提供代币(即不修改内部人工智能算法或目标导向),然后,我们在 OpenAI 的 GPT-3.5 模型开发的高级人工智能代理 text-davinci-003(以下简称 Davinci)和人类实验者(作者之一,TJ)之间的数百场信任游戏中使用这种方法。我们的工作建立在经济学研究的基础上,该研究表明,与假设的激励相比,真实的激励会改变人类的行为 [8],引发更准确的信念 [9],并促进对行为和态度的衡量,否则这些行为和态度可能会被各种反应偏见 [10] 所掩盖,包括社会期望偏见 [11]。事实上,这样的观察促使实验经济学家致力于为实验参与者提供诚实描述的、真实的激励[12]。
