减轻奖励黑客攻击 - 由于其学习目标中的缺陷或错误的特征,AI系统的表现不佳 - 在构建有能力且一致的模型方面面临着一个关键的挑战。我们表明,我们可以通过使用另一个观察模型的经验链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,例如OpenAI O3-Mini。COT监视可以比单独监视剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效地监视更强大的模型。因为COT监视器可以有效地检测漏洞,因此自然要问是否可以通过将COT监视器直接纳入代理商的训练目标来抑制这些漏洞。我们表明,将COT监测器集成到强化学习奖励中确实可以在低优化制度中产生更有能力,更一致的代理,但我们发现,通过过多优化,代理商学习了混淆的奖励黑客攻击,将其隐藏在COT中,同时仍然表现出很大的奖励奖励率。由于很难分辨出COTS何时变得混淆,因此可能有必要通过不直接将强大的优化压力直接施加到经营链上来缴纳可监视性税,从而确保COTS保持可监视且可用于检测未对准的行为。
人工智能(AI)越来越多地在现代医学中起着至关重要的作用,尤其是在临床决策支持中。本研究比较了两个OpenAI推理模型O3-Mini和O3-Mini-High的性能,以回答从MEDQA-USMLE数据集中得出的900个小儿临床问题。评估的重点是确定其在小儿诊断和治疗决策中的有效性的准确性,响应时间和一致性。结果表明,与O3-Mini相比,O3-Mini-High的精度更高(90.55%比88.3%)和更快的响应时间(64.63秒对71.63秒)。卡方检验证实了这些差异在统计上是显着的(x²= 328.9675,p <0。00001))。错误分析表明,O3-Mini-High纠正了O3-Mini的错误,反之亦然,但两种模型都共享了61个常见错误,这表明训练数据或模型体系结构中的固有局限性。此外,还考虑了模型之间的可访问性差异。虽然在先前的研究中对DeepSeek-R1进行了评估,但提供了不受限制的免费访问,Openai的O3模型具有消息限制,可能会影响其在资源受限环境中的适用性。未来的改进应旨在减少共享错误,在保持效率的同时优化O3-Mini的准确性,并提高O3-Mini-High以提高性能。实施一种利用这两种模型优势的合奏方法可以提供更强大的AI驱动临床决策支持系统,尤其是在时间敏感的儿科场景中,例如紧急护理和新生儿重症监护病房。