麦肯锡公司的基本价值观之一是保护信息(包括个人数据)以及存储、传输和处理这些信息的麦肯锡信息技术 (IT) 资源,防止意外、非法或未经授权的事件损害其机密性、完整性和可用性,以及防止所有其他非法形式的处理。因此,公司实施了以下技术、组织和物理安全措施,以提供适当级别的信息保护,同时考虑到处理过程中的风险和要保护的信息的性质,以及实施的最新技术和成本。本文档概述了麦肯锡在全球范围内采用的数字信息安全措施和标准。
摘要虽然模仿学习需要访问高质量的数据,但原则上应以类似或更好的方式在数据质量下进行类似或更好的表现。但是,当前的结果表明,离线RL的性能通常比模仿学习差,而且通常不清楚是什么避免了离线RL的表现。在这项工作中,我们旨在了解当前离线RL算法中的瓶颈。虽然离线RL的表现较差通常是在不完美的价值函数上表现出来,但我们还是问:在学习价值函数,策略或其他内容时,离线RL的主要瓶颈确实是真正的瓶颈吗?为了回答这个问题,我们对(1)价值学习,(2)策略提取和(3)脱机RL问题的策略概括从每个组件的“数据尺度”属性中分析,分析了这些组件如何影响性能。我们进行了两个令人惊讶的观察。首先,选择性提取算法的选择会影响离线rl Sigig的性能和可伸缩性,通常比其基本价值学习目标更重要。例如,广泛使用的价值加权回归目标(例如AWR)无法完全利用学习的价值函数,并且切换到行为调节的策略梯度目标(例如DDPG+BC)通常会导致性能和缩放行为的实质性改善。其次,离线RL的次优性能通常是由于对培训数据的支持,而不是分布状态的策略准确性。虽然大多数当前的离线RL算法并未明确解决此问题,但我们表明,使用次优的但高覆盖范围的数据或即时的策略提取技术可以有效解决实践中的策略概括问题。