安全操作注意事项:使用前请获取特殊说明。在阅读并理解所有安全注意事项之前,请勿操作。操作人员应穿防静电服和鞋,戴橡胶耐油手套。工作场所应局部或全面通风。使用防爆通风和设备。应控制填充速度。需要接地装置以防止静电积聚。装卸时应小心,以防止包装和容器损坏。避免与眼睛、皮肤接触。不要吸入雾气或蒸汽。在处理、储存和加工此材料的区域,禁止饮食和吸烟。安全储存的条件,包括任何兼容性:储存在阴凉通风良好的仓库中。远离热源、阳光直射或任何火源。储存温度:0-35℃。储存在密闭容器中。与氧化物分开存放。使用仓库外带开关的防爆雷击和通风设备。配备相应的消防设备,并具有一定的质量和数量。桶装物料堆放不宜过大,必须与墙体、天花板、柱子及防火检查走道保持一定距离,只能使用无火花工具和设备,储区应配备泄漏应急操作装置及合适的容器。
2020; Jin等。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。特别是,对于有限的状态空间,神经功能近似值取得了显着的成功(Mnih等人。,2015年; Berner等。,2019年; Arulkumaran等。,2019年),而线性函数近似器理论上变得更好地理解(Yang和Wang,2020; Jin等人。,2020b; Ayoub等。,2020年; Kakade等。,2020年; Du等。,2021)。相比之下,尽管在实践中普遍存在,但在部分观察到的马尔可夫决策过程中的强化学习(POMDPS)较少地研究(Cassandra等人,1996; Hauskrecht和Fraser,2000年; Brown and Sandholm,2018年; Ra i Qerty等。,2011年)。更具体地,部分可观察性构成了统计和计算。从统计的角度来看,由于缺乏马尔可夫财产,预测未来的奖励,观察或国家是一项挑战。尤其是,预测未来通常涉及推断国家的分布(也称为信仰状态)或其功能作为历史的摘要,即使假设(observation)发射和(状态)过渡内核也已知(Vlassis etal。 ,2012年; Golowich等。 ,2022)。 同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。 ,2021)。 ,2020a)。,2012年; Golowich等。,2022)。同时,学习发射和过渡内核面临因果推理通常遇到的各种问题(Zhang and Bareinboim,2016年)。,2021)。,2020a)。例如,它们通常是不可实现的(Kallus等人。即使假设它们是能够识别的,它们的估计可能需要一个样本量,该样本量在地平线和维度上成倍缩小(Jin等人。即使在评估政策方面,这种统计挑战也已经令人难以置信(Nair和Jiang,2021; Kallus等人。,2021; Bennett和Kallus,2021),构成了政策优化的基础。从计算角度来看,众所周知,策略优化通常是棘手的(Vlassis et al。,2012年; Golowich等。,2022)。此外,有限的观察和状态空间扩大了统计和计算挑战。另一方面,大多数现有结果仅限于表格设置(Azizzadenesheli等人。,2016年; Guo等。,2016年; Jin等。,2020a; Xiong等。,2021),其中观察和状态空间是有限的。在本文中,我们研究了POMDP中的线性函数近似,以解决有限观察和状态空间所扩增的实力挑战。尤其是我们的贡献是四倍。首先,我们定义了具有线性结构的一类POMDP,并确定了针对样品良好的增强学习的不良调节措施。这样的不良调节措施对应于表格设置中的重复(Jin等人,2020a)。第二,我们提出了一种增强学习算法(OP-TENET),该算法适用于任何POMDP承认上述线性结构。此外,我们在操作装置中使用最小值优化公式,以便即使数据集较大,也可以在计算功能庄园中实现算法。第三,从理论上讲,我们证明了Op -Tenet在o(1 /ǫ2)情节中达到了最佳政策。尤其是样品复杂性在线性结构的固有维度上缩放,并且是观测和状态空间大小的独立性。第四,我们的算法和分析基于新工具。 特别是,op-tenet的样本效率是由se- 启用的第四,我们的算法和分析基于新工具。特别是,op-tenet的样本效率是由se-