详细内容或原文请订阅后点击阅览
介绍 Amazon Bedrock AgentCore 浏览器中的操作系统级别操作
我们宣布 AgentCore 浏览器的操作系统级别操作。这项新功能通过 InvokeBrowser API 公开直接操作系统控制,从而解锁了这些场景,因此代理可以与屏幕上可见的内容进行交互,而不仅仅是通过浏览器的 Web 层访问的内容。通过将全桌面屏幕截图与操作系统级别的鼠标和键盘控制相结合,代理可以观察本机 UI,对其进行推理,并在同一会话中对其采取行动。这篇文章将介绍操作系统级别操作的工作原理、支持哪些操作以及如何开始。
来源:亚马逊云科技 _机器学习自动执行 Web 工作流程的 AI 代理在浏览器的 Web 层、Playwright 和 Chrome DevTools 协议 (CDP) 公开的 DOM 中运行。 AgentCore 浏览器为此提供了一个安全、隔离的浏览器环境,它适用于绝大多数自动化:导航页面、填写表单、单击元素、提取内容。但网络层有一个硬边界。操作系统呈现的任何内容(本机对话框、安全提示、证书选择器、上下文菜单,甚至 Chrome 设置)都完全位于 DOM 之外。 CDP 看不到它,Playwright 也无法与之交互。
当 Web 应用程序调用 window.print() 并出现系统打印对话框时,Playwright 没有可与之交互的 DOM。当工作流程需要键盘快捷键或右键单击上下文菜单时,CDP 没有机制在操作系统级别发出这些命令。当浏览器会话遇到 macOS 隐私对话框、Windows 安全提示或证书选择器时,它们对 Web 自动化层是不可见的。这些场景往往会在生产中出现。它们是由特定的应用程序状态、操作系统配置或用户权限触发的,而不是在测试中触发的,在测试中,Web 内容是可预测的,足以进行验证。
具有视觉功能的代理的挑战化合物。常见的架构是捕获屏幕截图,将其发送到模型,接收回坐标或指令,然后执行。此循环适用于 Web 内容,但会破坏本机 UI 出现的那一刻。屏幕截图捕获了它,模型对此进行了推理,然后就没有什么可以采取的行动了。 CDP 无法达到操作系统呈现的内容。代理清楚地看到要做什么,但却没有办法去做。
