工程设计问题通常涉及大型状态和动作空间以及高度稀疏的奖励。由于无法穷尽这些空间,因此人类利用相关领域知识来压缩搜索空间。深度学习代理 (DLAgents) 之前被引入使用视觉模仿学习来模拟设计领域知识。本文以 DLAgents 为基础,并将其与一步前瞻搜索相结合,以开发能够增强学习策略以顺序生成设计的目标导向代理。目标导向的 DLAgents 可以采用从数据中学习到的人类策略以及优化目标函数。DLAgents 的视觉模仿网络由卷积编码器 - 解码器网络组成,充当与反馈无关的粗略规划步骤。同时,前瞻搜索可以识别由目标指导的微调设计动作。这些设计代理在一个无约束桁架设计问题上进行训练,该问题被建模为一个基于动作的顺序配置设计问题。然后,根据该问题的两个版本对代理进行评估:用于训练的原始版本和带有受阻构造空间的未见约束版本。在这两种情况下,目标导向型代理的表现都优于用于训练网络的人类设计师以及之前反馈无关的代理版本。这说明了一个设计代理框架,它可以有效地利用反馈来增强学习到的设计策略,还可以适应未见的设计问题。[DOI:10.1115/1.4051013]