Anthropic 泄露揭示了 Claude Code 跟踪用户的挫败感,并提出了有关 AI 隐私的新问题

读取你的挫败感的代码是 Anthropic 意外泄露事件中最无趣的部分。此次泄露揭示了人工智能工具如何在其帮助完成的工作中隐藏自己的角色

来源:科学美国人

WTF,Anthropic 的克劳德代码会记录你每次发誓的情况

读取你的挫败感的代码是 Anthropic 意外泄露事件中最无趣的部分。此次泄露揭示了人工智能工具如何在其帮助完成的工作中隐藏自己的角色

作者:Deni Ellis Béchard 编辑:Eric Sullivan

3 月 31 日,人工智能公司 Anthropic 意外泄露了大约 512,000 行代码,几小时内,开发人员就开始仔细研究它。其中令人惊讶的是 Anthropic 的人工智能编码助手 Claude Code 中的代码,它似乎会扫描用户提示以寻找沮丧的迹象。它标记了亵渎、侮辱和诸如“太令人沮丧”和“这很糟糕”之类的短语,并且似乎记录了用户表达的消极情绪。

开发人员还发现,当该工具用于在公共软件存储库中创建代码时,这些代码旨在清除对人类特定名称(甚至是短语“Claude Code”)的引用,使后者的代码看起来完全是由人类编写的。独立开发人员 Alex Kim 发布了对泄露代码的技术分析,他将其称为“单向门”——一种可以强制打开但不能关闭的功能。 “隐藏内部代号是合理的,”他写道。 “让人工智能主动假装成人类是另一回事。”人类没有回应《科学美国人》的置评请求。

研究结果揭示了人工智能行业中出现的一个问题:那些被设计为有用且贴心的工具也在悄悄地衡量使用它们的人,并在他们帮助完成的工作中掩盖了他们自己的手。 Anthropic 在人工智能安全方面享有盛誉,它提供了一个早期案例研究,说明行为数据收集如何超越治理。

关于支持科学新闻

是时候捍卫科学了

现在是我们站起来展示科学重要性的重要时刻。我希望您能支持我们完成这一使命。