克劳德如何看待? Anthropic寻求解锁AI的黑匣子

Claude之类的大型语言模型(LLM)改变了我们使用技术的方式。他们为聊天机器人提供动力工具,帮助撰写论文,甚至创作诗歌。但是,尽管它们具有惊人的能力,但这些模型在许多方面仍然是一个谜。人们经常将它们称为“黑匣子”,因为我们可以看到他们说的话,但没有[…]克劳德的怎么看? Anthropic寻求解锁AI黑匣子的寻求首先出现在Unite.ai上。

来源:Unite.AI

Claude之类的大型语言模型(LLM)改变了我们使用技术的方式。他们为聊天机器人提供动力工具,帮助撰写论文,甚至创作诗歌。但是,尽管它们具有惊人的能力,但这些模型在许多方面仍然是一个谜。人们经常将它们称为“黑匣子”,因为我们可以看到他们说的话,但不能弄清楚这一点。缺乏理解会造成问题,尤其是在医学或法律等重要领域,错误或隐藏的偏见可能会造成真正的伤害。

了解LLM的工作方式对于建立信任至关重要。如果我们无法解释为什么模型给出特定的答案,那么很难相信其结果,尤其是在敏感领域。可解释性还有助于识别和解决偏见或错误,以确保模型安全和道德。例如,如果模型始终偏爱某些观点,那么知道为什么可以帮助开发人员对其进行纠正。这种对清晰的需求促使研究使这些模型更加透明。

Claude背后的公司Anthropic一直在努力打开这个黑匣子。他们在弄清LLM的思维方式方面取得了令人兴奋的进步,本文探讨了他们使克劳德(Claude)的流程更容易理解的突破。

Claude

映射克劳德的想法

在2024年中期,Anthropic的团队取得了令人兴奋的突破。他们创建了一个基本的“地图”,介绍了Claude如何处理信息。他们使用一种称为字典学习的技术,在Claude的“大脑”中发现了数百万个模式,即神经网络。每个模式或“特征”都连接到一个特定的想法。例如,某些功能有助于克劳德(Claude)现场城市,名人或编码错误。其他人则将更棘手的话题与性别偏见或保密性联系在一起。

突破 字典学习

追踪克劳德的推理

归因图

为什么这很重要:生物科学的类比

挑战

幻觉 偏见

底线