走开,Claude:Moonshot 的新 AI 模型可让您通过单个视频上传进行振动代码

虽然尚不清楚该功能对个人和企业的实际用途有多大,但该模型的“视觉编码”功能使氛围编码更加生动。

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

ZDNET 的关键要点

  • Moonshot 于周二推出了开源 Kimi K2.5 型号。
  • 它可以生成仅基于图像或视频的网页界面。
  • 它还具有“代理群”测试版功能。
  • 阿里巴巴支持的中国人工智能初创公司 Moonshot 周二发布了 Kimi K2.5,并在博客文章中将其描述为世界上“迄今为止最强大的开源模型”。

    Moonshot 的最新模型建立在去年夏天推出的 Kimi K2 LLM 之上,配备了编码功能,这可能使其成为其专有同行的有力竞争对手。根据 Moonshot 发布的数据,Kimi K2.5 在 SWE-Bench Verified 和 SWE-Bench 多语言编码基准测试中的得分与 OpenAI、Google 和 Anthropic 的前沿模型相当。

    然而,它能够根据视觉输入创建前端 Web 界面,这才是它真正与众不同的地方。

    用视觉编码

    Kimi K2.5 使用 15 万亿个文本和视觉标记进行了预训练,根据 Moonshot 的说法,使其成为“原生多模式模型”,可以从上传的图像或视频生成 Web 界面,并包含交互元素和滚动效果。

    在 Moonshot 博客文章中包含的这种“视觉编码”功能的演示视频中,Kimi K2.5 根据预先存在网站的录制视频生成了新网站的草稿,该草稿是从用户滚动屏幕的角度显示的。该模型能够重现一般的美感,尽管在经典的人工智能风格中,它一路上犯了一些轻微的视觉错误,比如将地球上的大陆描绘成无定形的斑点。

    另外:我使用 Claude Code 在 8 小时内编写了一个 Mac 应用程序,但这比魔法更费力

    如果事实证明它在现实世界中有用,尤其是在企业中,其他开发人员可能会效仿,为自己的模型提供类似的功能。

    代理群

    另外:我使用 Claude Code 在短短 12 小时内(而不是 2 个月)编写了一个 Apple Watch 应用程序