据报道，谷歌正在开发一款可以控制浏览器的 AI 代理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

据报道，谷歌正在开发一款可以控制浏览器的 AI 代理

2024年10月29日 03:15 33 Comments

Project Jarvis 显然会代表您进行研究、购买产品，甚至预订航班据报道，谷歌正寻求通过让其多模式大型语言模型 (LLM) 控制您的浏览器来规避人工智能驱动自动化的复杂性。

来源:The Register _恶意软件

Google正在寻求避开AI驱动自动化的复杂性，通过让其多模式大语言模型（LLMS）控制您的浏览器。

根据该信息发布的最新报告，援引几个未命名的资料来源，“ Jarvis Project”可以在12月的预览中提供，并允许该模型利用网络浏览器“收集研究，购买产品或预订航班”。

信息

这项服务显然将仅限于Chrome，并且我们收集的服务将利用Gemini与书面语言一起解析视觉数据的能力，可以代表用户输入文本并导航网页。

这将限制Jarvis项目能力的范围，而人类的工作范围。上周，AI启动详细介绍了其Claude 3.5十四行诗模型现在如何使用计算机来运行应用程序，收集和处理信息，并根据文本提示执行任务。

详细

论点说：“大量现代工作是通过计算机发生的”，而让LLMS以相同的方式利用现有软件”将解锁当前一代AI助手的大量应用程序，” Antharpic在最近的博客文章中解释说。

现在使用Puppeteer，Playwright和Langchain等现有工具可以使用这种自动化。本月初，AI影响者西蒙·威利森（Simon Willison）发布了一份报告，详细介绍了他使用Google的AI Studio刮擦其显示并从电子邮件中提取数字值的经验。

详细信息

当然，在推理方面，模型视觉功能并不完美，经常绊倒。最近，我们研究了Meta的Llama 3.2 11B视觉模型在各种任务中的执行方式，并发现了许多奇怪的行为和幻觉的倾向。当然，人类和Google的Claude和Gemini模型大大更大，毫无疑问地易于这种行为。

执行恐惧共享 寄存器

利用浏览器 Jarvis 视觉模型计算机收集应用程序人工智能详细说明 LLM 模型行为 Google Claude 文本 Information 不完美视觉功能一段时间复杂性自动化 Anthropic Gemini Project 电子邮件用户输入 AI 执行