Loading...
机构名称:
¥ 4.0

算法1独立和分散学习动力学初始化:n 0(s)= 0,∀s∈S; 〜n 0 i(s,a i)= 0,〜q 0 i(s,a i)= 0,π0i(s,a i)= 1 / | A I | ,∀(i,a i,s)和θi∈(0,1)。在迭代0中,每个玩家都会观察S0∈S,选择其动作A 0 I〜π0 I(S 0),然后观察R 0 I = U I(S 0,A 0)。在每个迭代中t = 1,2,...,每个玩家都会观察到S t,并且独立更新{n t,〜n t i,〜q t i,πt i}。更新n t,〜n t i:

马尔可夫的独立和分散学习...

马尔可夫的独立和分散学习...PDF文件第1页

马尔可夫的独立和分散学习...PDF文件第2页

马尔可夫的独立和分散学习...PDF文件第3页

马尔可夫的独立和分散学习...PDF文件第4页

马尔可夫的独立和分散学习...PDF文件第5页

相关文件推荐

2020 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0