点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
●使用神经网络估计Q值。●对于离散的动作空间(例如向上,向下,左,右),贪婪的策略可以选择为给定状态提供最大预测Q值的操作。●有时随机探索以获得看不见的状态行动对及其相应的奖励。●采样一批状态,行动和奖励批次。●对于给定的一组状态和行动对,使用Bellman EQN计算目标Q值。●使用平均误差来调整神经网络。
主要关键词