点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
•使用策略σT(i)计算瞬时遗憾r t(i,a)。•更新累积遗憾r t(i,a)= r t -1(i,a) + r t(i,a)。•计算下一个策略σT+1(i,a)〜最大(0,r t(i,a))。•累积策略C T(i,a)= c t -1(i,a) +πσt(i)σt(i,a)。•计算平均策略σT(i,a)〜c t(i,a)。
主要关键词