Loading...
机构名称:
¥ 1.0

摘要 — 近年来,深度强化学习 (DRL) 在各种完全和不完全信息游戏中取得了重大突破。在这些游戏中,斗地主是中国流行的纸牌游戏,由于信息不完整、状态空间大、协作元素多以及每回合可能的动作数量庞大,因此非常具有挑战性。最近,一种名为 DouZero 的斗地主人工智能系统被提出。DouZero 使用传统蒙特卡洛方法、深度神经网络和自我对弈程序进行训练,无需抽象人类先验知识,其表现优于所有现有的斗地主人工智能程序。在这项工作中,我们建议通过在 DouZero 中引入对手建模来增强 DouZero。此外,我们提出了一种新颖的教练网络,以进一步提升 DouZero 的性能并加速其训练过程。通过将上述两种技术融入到斗地主AI系统中,斗地主AI系统取得了更好的性能,在包括斗地主在内的400多个AI代理中名列Botzone排行榜榜首。索引术语 — 斗地主,强化学习,蒙特卡洛方法,对手建模,教练网络

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能PDF文件第1页

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能PDF文件第2页

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能PDF文件第3页

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能PDF文件第4页

DouZero+:通过对手建模和教练指导学习改进斗地主人工智能PDF文件第5页

相关文件推荐

2011 年
¥1.0
1900 年
¥1.0
2018 年
¥2.0
2018 年
¥1.0
2022 年
¥5.0
2021 年
¥4.0
2017 年
¥1.0
2015 年
¥1.0
2018 年
¥32.0
2020 年
¥32.0
2008 年
¥1.0