这款新的 Google Gemini 模型可以像您一样滚动互联网 - 工作原理

新模型现已推出公共预览版,是人工智能迈出的又一步,可以在网络环境中运行,而无需人工监督。

来源:ZDNet | 机器人新闻
哈维尔·扎亚斯摄影/盖蒂图片社的瞬间

关注 ZDNET:将我们添加为 Google 上的首选来源。

关注 ZDNET: 将我们添加为首选来源

ZDNET 的关键要点

    谷歌的新AI模型可以直接与网站UI交互。它加入了OpenAI和Anthropic的类似工具。该公司还承认其弱点,包括幻觉。
  • Google 的新 AI 模型可以直接与网站 UI 交互。
  • 它加入了 OpenAI 和 Anthropic 的类似工具。
  • 该公司还承认其弱点,包括幻觉。
  • Google DeepMind 在公共预览版中首次推出了一种新的人工智能模型,该模型旨在像人类一样在网络浏览器中导航。

    推出全新AI模型

    该公司的新计算机使用模型建立在 Gemini 2.5 Pro 之上,可以直接在网页中执行单击、键入和滚动等任务。

    另外:我在桌面上使用本地 AI 的 5 个原因 - 而不是 ChatGPT、Gemini 或 Claude

    我在桌面上使用本地 AI 的 5 个原因 - 而不是 ChatGPT、Gemini 或 Claude

    用户只需用自然语言向其提供提示即可,例如“打开维基百科,搜索‘亚特兰蒂斯’,并总结西方思想中的神话历史。”该模型将自动获取所请求站点的 URL 和屏幕截图,以分析其需要在其中执行操作的用户界面,并逐步执行所请求的任务,同时在用户容易看到的文本框中概述其推理和操作。如果它被指示执行敏感任务(例如购买),它也可能会通过请求确认来做出响应。

    Gemini 2.5 Computer Use 预览版紧随 OpenAI 和 Anthropic 发布类似的网络浏览模型之后。谷歌此前推出了一款名为 Project Mariner 的实验性 Chrome 扩展程序,该扩展程序还可以代表用户在网页内执行操作。

    OpenAI 人择 水手计划

    工作原理

    另外:ChatGPT 的 Codex 刚刚进行了巨大升级,使其比以往更加强大 - 新增内容

    博客文章

    如何尝试

    演示版

    安全注意事项