Loading...
机构名称:
¥ 1.0

在许多慢性疾病管理和重症监护应用中推荐最佳治疗策略的数据驱动方法越来越兴趣。强化学习方法非常适合这个顺序的决策问题,但必须专门在回顾性病历数据集上进行培训和评估,因为直接在线探索是不安全且不可行的。尽管有这一要求,但绝大多数治疗优化研究都使用了偏离RL方法(例如,在纯粹的离线设置中表现较差的双重深Q网络(DDQN)或其变体)。离线RL的最新进展,例如保守Q学习(CQL),提供了合适的替代方案。,但是在将这些方法调整到现实世界应用中仍然存在挑战,在这些方法中,次优示例主导着回顾性数据集,并且需要满足严格的安全限制。在这项工作中,我们引入了一种实用且理论上的过渡抽样方法,以解决离线RL培训期间的行动失衡。我们对糖尿病和败血症治疗优化的两个现实世界任务进行了广泛的实验,以将所提出的方法的性能与突出的非上线和离线RL基准(DDQN和CQL)进行比较。在一系列有原则和临床相关的指标中,我们表明我们提出的方法可以根据相关的实践和安全指南进行实质性改善。

真实世界的深层离线增强学习

真实世界的深层离线增强学习PDF文件第1页

真实世界的深层离线增强学习PDF文件第2页

真实世界的深层离线增强学习PDF文件第3页

真实世界的深层离线增强学习PDF文件第4页

真实世界的深层离线增强学习PDF文件第5页

相关文件推荐

2024 年
¥7.0
1900 年
¥1.0
2024 年
¥5.0
2019 年
¥3.0
2024 年
¥1.0
2023 年
¥1.0