对自动网络防御的一个重大挑战是确保防御力代理在各种网络拓扑和配置之间概括的能力。在部署在动态变化的环境中,例如设备可能经常加入并离开的企业网络时,该功能必须保持有效。深入加固学习的标准方法,其中策略是使用固定输入的多层感知器(MLP)的参数化的,期望固定尺寸的观察和动作空间。在自主的网络防御中,这使得很难开发具有与受过训练的网络拓扑不同的环境,因为节点的数量会影响观察和动作空间的自然大小。为了克服这一限制,我们使用基于实体的信息进行学习重新构建了自主网络防御的问题,在这种学习中,代理的观察和动作空间被分解为离散实体的集合。此框架可以使用专门用于组成概括的策略参数。我们将基于变压器的政策培训有关打哈欠泰坦网络安全模拟环境的政策,并在各种网络托管中测试其概括能力。我们证明,当跨越不同拓扑的固定尺寸网络训练时,这种方法在训练固定尺寸的网络上时会大大优于基于MLP的策略,并且在单个网络上进行培训时的性能匹配。我们还证明了与训练中看到的网络零弹性概括的潜力。这些发现突出了基于实体的强化学习的潜力,可以通过提供能够在现实世界网络环境中处理差异的更普遍的策略来推进自动网络防御的领域。
主要关键词