Loading...
机构名称:
¥ 1.0

主算法(算法 1)首先从我们需要解决的目标 6 实例(算法 2)创建一个子实例任务池,并可能从其他未解决的实例中创建子实例以进一步提高性能(选项 MIX)。通常,任务池包含 100,000 个任务或子实例。8 在每次迭代中,采样器/老虎机从池中挑选一批任务子实例并将其传递给 9 RL 代理。一批通常有 500 个任务或子实例(算法 3)。10 基于蒙特卡洛树搜索(算法 4)的 RL 代理,借助神经网络(CNN 或 11 GNN)进行增强,尝试解决这些实例。对于批次中的每个实例,MCTS 都会在给定的资源预算下寻找一个解决方案,对于生成的每个成功解决方案,MCTS 还会为策略/价值深度网络(训练器)生成一系列新的训练数据,以进一步更新其网络参数。每个实例的 MCTS 成功/失败状态都会发送回采样器/老虎机以调整其权重。每次成功的尝试不仅会生成一个有效的解决方案,还会为训练器改进策略/价值数据,以训练代理的深度网络。训练器会保留一个大小为 100000 的池子,用于存储 MCTS 生成的最新训练数据,并训练网络。每个训练批次都会均匀随机抽样。所有实验均在配备 2x18 19 核 Xeon Skylake 6154 CPU 和 5 个 Nvidia Tesla V100 16GB GPU 的机器上完成,所有训练组件均使用学习率为 0 的 Adam。 002作为默认优化器。MCTS模拟次数R设置为1600,Exp3每次迭代采样的batch size M设置为500。

一种解决人工智能规划难题的新型自动化课程策略

一种解决人工智能规划难题的新型自动化课程策略PDF文件第1页

一种解决人工智能规划难题的新型自动化课程策略PDF文件第2页

一种解决人工智能规划难题的新型自动化课程策略PDF文件第3页

一种解决人工智能规划难题的新型自动化课程策略PDF文件第4页

一种解决人工智能规划难题的新型自动化课程策略PDF文件第5页

相关文件推荐

2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0