详细内容或原文请订阅后点击阅览
走开,Claude:Moonshot 的新 AI 模型可让您通过单个视频上传进行振动代码
虽然尚不清楚该功能对个人和企业的实际用途有多大,但该模型的“视觉编码”功能使氛围编码更加生动。
来源:ZDNet | 机器人新闻关注 ZDNET:将我们添加为 Google 上的首选来源。
ZDNET 的关键要点
阿里巴巴支持的中国人工智能初创公司 Moonshot 周二发布了 Kimi K2.5,并在博客文章中将其描述为世界上“迄今为止最强大的开源模型”。
Moonshot 的最新模型建立在去年夏天推出的 Kimi K2 LLM 之上,配备了编码功能,这可能使其成为其专有同行的有力竞争对手。根据 Moonshot 发布的数据,Kimi K2.5 在 SWE-Bench Verified 和 SWE-Bench 多语言编码基准测试中的得分与 OpenAI、Google 和 Anthropic 的前沿模型相当。
然而,它能够根据视觉输入创建前端 Web 界面,这才是它真正与众不同的地方。
用视觉编码
Kimi K2.5 使用 15 万亿个文本和视觉标记进行了预训练,根据 Moonshot 的说法,使其成为“原生多模式模型”,可以从上传的图像或视频生成 Web 界面,并包含交互元素和滚动效果。
在 Moonshot 博客文章中包含的这种“视觉编码”功能的演示视频中,Kimi K2.5 根据预先存在网站的录制视频生成了新网站的草稿,该草稿是从用户滚动屏幕的角度显示的。该模型能够重现一般的美感,尽管在经典的人工智能风格中,它一路上犯了一些轻微的视觉错误,比如将地球上的大陆描绘成无定形的斑点。
另外:我使用 Claude Code 在 8 小时内编写了一个 Mac 应用程序,但这比魔法更费力
如果事实证明它在现实世界中有用,尤其是在企业中,其他开发人员可能会效仿,为自己的模型提供类似的功能。
代理群
另外:我使用 Claude Code 在短短 12 小时内(而不是 2 个月)编写了一个 Apple Watch 应用程序
