培训深层神经网络以最大程度地提高目标,已成为过去十年来成功机器学习的标准配方。如果目标目标是可区分的,则可以通过有监督的学习对这些网络进行操作。但是,许多有趣的问题并非如此。共同的目标,例如联合(IOU)的交集以及双语评估研究(BLEU)分数或奖励,无法通过有监督的学习来优化。一个常见的解决方法是定义可区分的替代损失,从而导致相对于实际目标的次优解决方案。强化学习(RL)已成为一种有前途的替代方法,用于优化深度神经网络,以最大程度地提高非差异性目标。示例包括通过人类反馈,代码生成,对象检测或控制问题对齐大语言模型。这使得RL技术与较大的机器学习受众相关。然而,由于大量方法以及通常高度理论上的表现,该主题是在很密集的时间。该专着采用了一种与经典RL教科书不同的替代方法。而不是专注于表格
主要关键词