详细内容或原文请订阅后点击阅览
据报道,谷歌正在开发一款可以控制浏览器的 AI 代理
Project Jarvis 显然会代表您进行研究、购买产品,甚至预订航班据报道,谷歌正寻求通过让其多模式大型语言模型 (LLM) 控制您的浏览器来规避人工智能驱动自动化的复杂性。
来源:The Register _恶意软件Google正在寻求避开AI驱动自动化的复杂性,通过让其多模式大语言模型(LLMS)控制您的浏览器。
根据该信息发布的最新报告,援引几个未命名的资料来源,“ Jarvis Project”可以在12月的预览中提供,并允许该模型利用网络浏览器“收集研究,购买产品或预订航班”。
信息这项服务显然将仅限于Chrome,并且我们收集的服务将利用Gemini与书面语言一起解析视觉数据的能力,可以代表用户输入文本并导航网页。
这将限制Jarvis项目能力的范围,而人类的工作范围。上周,AI启动详细介绍了其Claude 3.5十四行诗模型现在如何使用计算机来运行应用程序,收集和处理信息,并根据文本提示执行任务。
详细论点说:“大量现代工作是通过计算机发生的”,而让LLMS以相同的方式利用现有软件”将解锁当前一代AI助手的大量应用程序,” Antharpic在最近的博客文章中解释说。
现在使用Puppeteer,Playwright和Langchain等现有工具可以使用这种自动化。本月初,AI影响者西蒙·威利森(Simon Willison)发布了一份报告,详细介绍了他使用Google的AI Studio刮擦其显示并从电子邮件中提取数字值的经验。
详细信息当然,在推理方面,模型视觉功能并不完美,经常绊倒。最近,我们研究了Meta的Llama 3.2 11B视觉模型在各种任务中的执行方式,并发现了许多奇怪的行为和幻觉的倾向。当然,人类和Google的Claude和Gemini模型大大更大,毫无疑问地易于这种行为。
执行 恐惧 共享 寄存器