为了确定是否可以安全地执行所需的操作,谨慎的导航员必须了解其车辆定位系统的当前空间不确定性以及用于描绘战区的导航地图模型的空间不确定性。从安全导航的角度来看,了解数据的准确性与数据本身一样重要。本文讨论了 GPS 车辆定位误差和特定于水深地图模型(图表)的相对较大的数据建模误差对电子海图 (EC) 的影响。它提出并演示了软件解决方案,这些解决方案可以统计评估这两种空间不确定性,并在 EC 环境中以图形方式集成这两个随机模型。本文还记录了加拿大水文服务局进行的一项实验,旨在确保实时 DGPS 用户计算出统计上有效的位置误差估计。实验对使用伪距冗余的传统实时误差分析获得的位置误差估计进行了地面实况分析。利用此地面实况信息,根据经验确定了改进的伪距误差模型。新的伪距误差模型使用 Novatel GPS 接收器计算的估计伪距方差不断更新,而不是应用最小二乘调整中典型的恒定先验伪距方差。该动态范围误差模型有效地减少了观察到的误差与其预测的误差估计之间的统计偏差。改进的范围误差模型还显著提高了位置解的性能。修改后的软件计算的所有 DGPS 位置的定位精度均优于 0.5 米。
基于模型的增强学习(MBRL)是一种获得控制策略的样本有效技术,但不可避免的建模误差通常会导致性能恶化。MBRL中的模型通常仅用于重建动态,尤其是状态观察,而模型误差对策略的影响并未由培训目标捕获。这导致MBRL的目标目标之间的不匹配,实现良好的政策和价值学习,以及实践中采用的损失函数的目标,未来的国家预测。天真的直觉表明,价值感知的模型学习将解决这个问题,实际上,已经基于理论分析提出了针对该客观不匹配问题的第二种解决方案。但是,在实践中,它们往往不如通常使用的最大可能性(MLE)方法。在本文中,我们提出了价值梯度加权模型损失(VAGRAM),这是一种新颖的价值模型学习方法,可改善MBRL在具有挑战性的环境中的性能,例如小型模型容量和分散注意力的状态尺寸。我们分析了MLE和值感知的方法,并演示了他们如何在学习价值吸引模型时无法解释样本覆盖范围和功能近似的行为。fom,我们强调了在深度学习环境中稳定优化的其他目标。为了实现这一目标,我们利用经验值函数的梯度作为对RL算法对模型误差的敏感性的量度。我们通过表明我们的损失函数能够在Mujoco基准套件上获得高回报来验证我们的分析,同时比基于最大似然的方法更健壮。