离线增强学习(RL)试图使用离线数据学习最佳策略,由于其在在线数据收集不可行或昂贵的关键应用程序中的潜力,因此引起了极大的兴趣。这项工作探讨了联合学习对离线RL的好处,旨在协作利用多个代理商的离线数据集。专注于有限的情节表格马尔可夫决策过程(MDPS),我们设计了FedLCB-Q,这是针对联合离线RL量身定制的流行无模型Q学习算法的变体。FedLCB-Q更新了具有新颖的学习率时间表的代理商的本地Q-功能,并使用重要性平均和精心设计的悲观惩罚项将其在中央服务器上汇总。Our sample complexity analysis reveals that, with appropriately chosen parameters and synchronization schedules, FedLCB-Q achieves linear speedup in terms of the number of agents without requiring high-quality datasets at individual agents, as long as the local datasets collectively cover the state-action space visited by the optimal policy, highlighting the power of collaboration in the federated setting.实际上,样本复杂性几乎与单代理对应物的复杂性匹配,好像所有数据都存储在中心位置,直到地平线长度的多项式因子。此外,fedlcb-Q是通信有效的,其中通信弹的数量仅相对于地平线长度与对数因素有关。
5.4.2. 公众需要采用严格合理的备用电源要求 .............................................................................41 5.4.3. 各方立场:备用电源使用时间长度 .............................................................44 5.4.4. 72 小时备用电源,加上灵活的采购和部署,是满足备用电源要求的合理时间长度 .............................................................................................46 5.4.5. 各方立场:备用电源要求的服务水平 .........................................................................55 5.4.6. 在灾难和 PSPS 事件期间,维持最低服务水平对公众和应急人员至关重要 .............................................................................57 5.4.7. 各方立场:客户场所的备用电源 .............................................................................59 5.4.8. 客户场所的发电是整体通信弹性的重要组成部分,必须扩大。.............................................................................60 5.5. 5.5.1. 确定无线覆盖不足的区域 ......................................................................................62 5.5.2. 必须特别关注通信网络冗余有限的社区 ........................................................................64 5.6. 通信弹性计划 ......................................................................................................65 5.6.1. 各方的立场 ......................................................................................................66 5.6.2. 有线服务提供商应提交通信弹性计划,该计划应描述其在灾难或停电期间维持最低服务的能力 .............................................................................................................68 5.7. 豁免 ......................................................................................................................78 5.7.1. 各方的立场 ......................................................................................................78 5.7.2.有线服务提供商必须确定哪些设施不需要备用电源、由于安全风险而无法支持备用电源或客观上不可能或不宜部署备用电源。................................................................................................................81 5.8. 清洁发电 ......................................................................................................................................83 5.8.1. 各方立场 ......................................................................................................................83 5.8.2. 近期使用柴油发电作为主要备用电源是合理的,但有线服务提供商应探索向未来可再生备用发电过渡的途径 ................................................................................................................83 5.9. 应急行动计划 .............................................................................................................................85 5.9.1. 各方立场 ....................................................................................................................86................................................................................................85 5.9.2. 有线服务提供商应提交年度应急行动计划,其中包括提供实施程序,以确保在紧急情况下与委员会和 CalOES 进行实质性接触 ................................................................................................................87