摘要 - 强化学习为机器人控制提供了一个吸引人的框架,因为它仅通过现实世界的互动才能纯粹学习表达政策。但是,这需要解决现实世界的约束并避免在训练过程中造成灾难性失败,这可能会严重阻碍学习进步和最终政策的表现。在许多机器人设置中,这相当于避免某些“不安全”状态。高速越野驾驶任务代表了对此问题的特别挑战性的实例化:高回报策略应尽可能积极地驱动驱动力,通常需要接近“安全”状态集的边缘,因此在该方法上承担特定的负担,以避免频繁失败。既学习高表现的政策,又避免过度失败,我们提出了一个增强学习框架,将对风险敏感的控制与自适应动作空间课程相结合。此外,我们表明我们的风险敏感目标会自动避免配备认知不确定性的估计量。我们在小规模的拉力赛上实施了算法,并表明它能够为现实世界中的越野驾驶任务学习高速政策。我们表明,我们的方法大大减少了培训过程中的安全违规数量,实际上导致在驾驶和非驾驶模拟环境中都具有类似挑战的驾驶和非驾驶模拟环境中的绩效策略。
为了打击主要存储器和CPU之间移动数据的高能量成本,最近的作品提出了执行加工记忆(PUM)的工作,这是一种记忆中的一种处理,其中在现场进行数据操作(即,在存储单元格在持有数据的存储单元上)。几种常见和新兴的记忆技术提供了通过互连单元相互作用来执行比尔原始功能的能力,从而消除了对多个常见操作使用离散的CMOS计算单元的需求。最近的PUM架构扩展了这些布尔原始图,以使用内存执行比特系列的组合。不幸的是,基础内存设备的几个实际局限性限制了新兴内存阵列的大小,这阻碍了传统的位式计算方法的能力,除了大量的能源节省外,还可以提供高性能。在本文中,我们提出了赛车手,这是一个具有成本效益的PUM档案馆,可使用少量的电阻性记忆提供高性能和大量节省的能源。Racer利用了一个比特的上流执行模型,该模型可以在W小图块上管道位的w-bit计算。我们完全设计有效的控制和外围电路,它们的区域可以在不牺牲记忆密度的情况下在小记忆砖上摊销,我们为Racer提出了ISA抽象,以允许简单的程序/编译器集成。We evaluate an implementation of RACER using NOR- capable ReRAM cells across a range of microbenchmarks extracted from data-intensive applications, and find that RACER provides 107 × , 12 × , and 7 × the performance of a 16-core CPU, a 2304-shader- core GPU, and a state-of-the-art in-SRAM compute substrate, re- spectively, with energy savings of 189 × , 17 × ,和1.3×。