Loading...
机构名称:
¥ 1.0

对数遗憾:Lai&Robbins(1985)5的经典结果断言,最佳的遗憾率为O(log n)。实际上,在奖励分布的参数假设下,他们表明,所有保证所有α> 0的遗憾的政策必须采样至少1 c(a,a ∗)log n libies c(a,a,a,a,a,a,a,a,a ∗)= d(p(p(p(·| a),p(·| a),p(·| a ∗)extry ernection nige n lim diog n lim nige n lim nigial n ligials nigial n ligial。分布。他们的政策渐近地实现了最佳的遗憾,它基于上限范围(UCB)的概念,需要对这些界限进行微妙的操纵。

7有效探索

7有效探索PDF文件第1页

7有效探索PDF文件第2页

7有效探索PDF文件第3页

7有效探索PDF文件第4页

7有效探索PDF文件第5页

相关文件推荐

2024 年
¥3.0
2022 年
¥1.0
2016 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥10.0
2004 年
¥1.0
2024 年
¥13.0
2021 年
¥1.0
2020 年
¥1.0
2023 年
¥2.0
2020 年
¥1.0
2023 年
¥4.0
2024 年
¥1.0
2007 年
¥61.0
2020 年
¥2.0
2020 年
¥1.0
2018 年
¥1.0
2020 年
¥1.0
2022 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0