Loading...
机构名称:
¥ 1.0

在10个独立的参与者批评中的导航中,每个都带有参数β= 0。05,λ= 0。9,α= 0。3,γ= 0。95,在总共1,000集和最大插曲长度为1,000集中,从启用到目标的成功途径是在学习终止后10次获得的。

复杂路线导航和空间决策中的强化学习

复杂路线导航和空间决策中的强化学习PDF文件第1页

复杂路线导航和空间决策中的强化学习PDF文件第2页

复杂路线导航和空间决策中的强化学习PDF文件第3页

复杂路线导航和空间决策中的强化学习PDF文件第4页

复杂路线导航和空间决策中的强化学习PDF文件第5页