自主代理向用户保证了个性化的未来,允许他们将注意力转移到对他们最有意义的任务上。但是,个性化的需求无法实现诸如机器学习之类的车型训练范式,这需要许多数据订单才能培训代理的单个任务。在顺序决策域中,加强学习(RL)可以实现这一需求,当对所需行为的先验培训非常棘手时。先前的工作已利用用户输入来培训代理将其映射到数值奖励信号。但是,最近的方法已经确定了不一致的人类反馈是实现最佳表现的瓶颈。在这项工作中,我们提供了经验证据,以表明受对比影响影响的人类感知会扭曲其对强化学习者的反馈。通过一系列研究,涉及来自亚马逊机械土耳其人的900名参与者,他们被要求向RL代理提供反馈,我们表明,参与者在接触了同一任务上具有较高能力的代理商后,明显低估了代理商的行动。为了了解这种影响在训练过程中对代理的重要性的重要性,然后我们模拟了培训师,这些培训师基于过去的性能(创建系统偏向的反馈信号)对代理的动作进行了低估 - 整合到了Actor-Critic框架中。我们的结果表明,在Atari环境中人类反馈中有系统偏斜的情况下,代理性能最多可降低98%。我们的工作提供了对人类反馈不一致的源头的概念理解,从而为人类代理人的互动设计提供了信息。