The Geometries of Truth Are Orthogonal Across Tasks
本文在ICML 2025.LARGE语言模型(LLMS)的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力,但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活,以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”,从某种意义上说,可以区分产生正确答案的激活……
Exploring the AI Alignment Problem with GridWorlds
探索网格世界中的 AI 对齐问题很难在不遇到正交目标的情况下构建有能力的 AI 代理设计一个“网格世界”,AI 代理很难在不鼓励不良行为的情况下学习。图片由作者提供。这是 AI 对齐问题的本质:具有强大功能的高级 AI 模型的目标可能与我们的最佳利益不一致。这种模型可能会以不利于人类文明繁荣的方式追求自己的利益。对齐问题通常在生存风险的背景下讨论。许多人批评这个想法,认为人工智能对人类构成生存风险的可能性很小。一个常见的贬义简化是,人工智能安全研究人员担心超级智能人工智能会像电影《终结者》中那样制造杀人机器人。更令人担忧的是人工智能有“正交”而不是敌对的目标。一个常见的例子是,当我们修建高速公
曲線にはどんな種類があって、どう社会に役立っているのか(その8)-リサージュ曲線・バラ曲線-
当我还是一名学生时,我想我了解到,当复杂的数学公式用图表表达时,就会画出各种形状的曲线。此时,许多人只是想,“嗯,没错。”相反,他们正在努力处理这些公式,并且由此产生的曲线对社会或自然世界没有太多解释。它表现了它自己以及它如何有用,我认为几乎没有机会研究它。因此,在这个研究者之眼系列中,我们将报道“曲线”有哪些种类,它们在现实社会中出现什么情况,以及它们对社会有何用处。在过去的七场“研究员之眼”会议中,我们报告了“圆锥曲线”,例如椭圆、抛物线和双曲线、“悬链线”、“回旋曲线”和“摆线和次摆线曲线”。 '这次,我将报道所谓的“利萨如曲线”和“玫瑰曲线”。 “利萨如(曲线/图形)”1是通过组合两个