这项工作建立了一个有效的基于AI的消息生成系统,用于在农村地区预防糖尿病,在这种情况下,糖尿病率一直以惊人的速度增加。信息包含有关糖尿病原因和并发症的信息,以及营养和健身对预防疾病的影响。我们建议应用强化学习(RL),以优化我们的消息选择随着时间的流逝,以量身定制我们的消息以与每个参与者的需求和偏好保持一致。我们在印度进行了一项广泛的实地研究,其中涉及1000多名参与者,他们是村民,他们在六个月的时间内收到了我们系统产生的信息。我们的分析表明,与静态消息集相比,通过使用AI,我们可以在参与者的糖尿病相关知识,体育锻炼和避免高脂食品的避免方面取得显着改善。此外,我们构建了一个新的基于神经网络的行为模型,以预测参与者的情况变化。通过利用与健康相关行为的非衍生特征,我们设法显着提高了模型的预测准确性与基线相比。
Parrondo的悖论是指违反直觉现象,在某种方式以某种方式交替时,两种失败的策略可能会导致胜利。了解Parrondo游戏中的最佳序列对于在各种情况下最大化利润至关重要。但是,当前的预定序列可能无法很好地适应不断变化的环境,从而限制了它们实现最佳性能的潜力。我们认为,决定要玩的游戏的最佳策略应该可以通过经验来学习。在这封信中,我们提出了一种有效且强大的方法,该方法利用Q学习能够适应地学习Parrondo游戏中的最佳顺序。通过对抛售游戏的大量模拟,我们证明了帕伦多游戏中博学的切换策略在Pro-File方面优于其他预定的序列。此外,实验结果表明,我们提出的方法很容易调整以适应不同的资本依赖游戏和与历史有关的游戏。
•一种用于分析传感器数据的工业设备的预测维护代理,以预测故障发生,仅在需要时安排维护,并减少停机时间,并使Leroy等人付费。[2023]。•一个自主交付无人机系统,可根据交通,天气条件和客户的可用性优化交货路线和时间,从每个交付中学习以提高效率和客户满意度。•像chatgpt这样的对齐代理微调LLM,以更好地匹配用户意图。它从反馈中学习,以改善问题解释并确保准确,相关的回答。请参阅RL和LLM上的第11讲。•使用视觉识别识别成熟的水果和蔬菜的机器人收割助手,该助手在果园中航行。它可以精确地轻轻挑选农产品,最大程度地减少损坏和浪费。通过从每次收获中学习什么条件会导致最佳产量和质量,它可以帮助农民优化采摘时间表。请参阅机器人RL上的第10讲。
本文通过人类和AI的反馈对进步的增强学习(RL)进行了全面审查,重点是可解释的强化学习(XRL)的新兴子领域。它研究了解释性技术如何在顺序决策设置中提高RL代理决策过程的透明度,从而使从业者能够更好地理解和信任代理人的行为。该评论还探讨了从人类反馈(RLHF)学习增强性挑战的挑战,并从AI反馈(RLAIF)中引入了强化学习,这是一个有希望的选择。通过利用现成的大语言模型(LLMS)生成偏好标签,RLAIF解决了手动人类反馈的时间耗时和昂贵的性质,同时取得了可比或优越的结果。该论文进一步讨论了RLHF和RLAIF的开放问题和基本局限性,强调了对改善其实际实施的强大方法的需求。结束时,概述了旨在完善和补充RLHF和RLAIF的未来研究指示,以增强其在现实世界应用中的有效性和社会影响。
摘要 - 这项研究提出了一种创新的方法,可用于由四个可压缩肌腱驱动的软执行器启用的软四倍机器人的最佳步态控制。柔软的四足机器人与刚性的机器人相比,已广泛认可,可提供增强的安全性,较低的重量以及更简单的制造和控制机制。然而,它们的高度变形结构引入了非线性动力学,使得精确的步态运动控制复合物。为了解决这一问题,我们提出了一种基于模型的新型增强学习(MBRL)方法。该研究采用多阶段方法,包括国家空间限制,数据驱动的替代模型培训和MBRL开发。与基准方法相比,所提出的方法显着提高了步态控制策略的效率和性能。开发的策略既适合机器人的形态,既适合又有能力。这项研究结论是在实际情况下强调这些发现的实际适用性。索引术语 - 四倍的机器人,软执行器,增强学习,步态控制
摘要 - 未来的电力系统将在很大程度上依赖于具有大量分散的可再生能源和能源存储系统的微网格。在这种情况下,高复杂性和不确定性可能会使常规权力调度策略不可行。加强学习者(RL)控制器可以应对这一挑战,但是,不能提供安全保证,以防止其在实践中的部署中。为了克服这一限制,我们提出了一个经济派遣的正式验证的RL控制器。我们通过编码岛屿意外事件的时间相关约束来扩展常规约束。使用基于集合的向后触及性分析来计算偶性约束,RL代理的动作将通过安全层进行验证。不安全的动作被投影到安全的动作空间中,同时利用受约束的划界设置表示以提高效率。使用现实世界测量值在住宅用例上证明了开发的方法。
