计划支持办公室内的回收,教育和质量保证部分提供了财务和技术援助,通过两种方式开发回收活动:固体废物管理基金(SWMF)(IC 13-20-22-2)(IC 13-20-22-2)和回收市场发展计划(RMDP)(RMDP)(IC 4-23-5.5-14)。RMDP致力于减少固体废物处理,并增加印第安纳州的可回收材料制造能力,并通过与当地政府,固体废物管理区,学校,非营利组织,企业和回收行业一起工作来增加回收产品的使用。促进印第安纳州收集,使用和生产回收材料的概念支持该机构的创造就业和经济稳定性倡议,从而实现了自然资源的环境管理。在SWMF提供的暂停回收赠款后,于2019年重新推出,社区回收赠款计划(CRGP)有助于实现SWMF的目标。SWMF的目标补充了RMDP并促进回收,减少废物,院子废物的管理以及家庭危险废物来源减少或回收利用。
强化学习的实际应用中的主要障碍之一是模拟和实际真实环境之间的差异。因此,在模拟环境中训练的政策可能无法在现实世界中产生预期的行动,这是由于噪声,建模不准确和不同环境条件等因素。为了减轻此问题,强大的马尔可夫决策过程(RMDPS)框架集中于设计算法弹性,可弹性。在RMDP中,人们考虑了一个可能的过渡概率和奖励功能的家族,并选择了本集中最坏的案例过渡概率和奖励功能以进行策略优化。最近的研究表明,考虑策略的熵和差异可以捕获给定奖励功能的最坏情况。尽管引入了处理过渡概率的各种算法,但仍存在某些挑战。特别是,分布的支持可能是不一致的,在实际环境中未过渡的状态仍然可以分配非零过渡概率。在这项工作中,我们添加了有关软最佳策略的差异,并用KL差异术语替换了相对于名义环境的过渡概率,替换了最坏的案例过渡概率。可以解决RMDPS的挑战。