Loading...
机构名称:
¥ 1.0

●使用神经网络估计Q值。●对于离散的动作空间(例如向上,向下,左,右),贪婪的策略可以选择为给定状态提供最大预测Q值的操作。●有时随机探索以获得看不见的状态行动对及其相应的奖励。●采样一批状态,行动和奖励批次。●对于给定的一组状态和行动对,使用Bellman EQN计算目标Q值。●使用平均误差来调整神经网络。

多代理深钢筋学习

多代理深钢筋学习PDF文件第1页

多代理深钢筋学习PDF文件第2页

多代理深钢筋学习PDF文件第3页

多代理深钢筋学习PDF文件第4页

多代理深钢筋学习PDF文件第5页