介绍 Amazon Bedrock AgentCore 浏览器中的操作系统级别操作 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

介绍 Amazon Bedrock AgentCore 浏览器中的操作系统级别操作

2026年5月5日 16:54 33 Comments

我们宣布 AgentCore 浏览器的操作系统级别操作。这项新功能通过 InvokeBrowser API 公开直接操作系统控制，从而解锁了这些场景，因此代理可以与屏幕上可见的内容进行交互，而不仅仅是通过浏览器的 Web 层访问的内容。通过将全桌面屏幕截图与操作系统级别的鼠标和键盘控制相结合，代理可以观察本机 UI，对其进行推理，并在同一会话中对其采取行动。这篇文章将介绍操作系统级别操作的工作原理、支持哪些操作以及如何开始。

来源:亚马逊云科技 _机器学习

自动执行 Web 工作流程的 AI 代理在浏览器的 Web 层、Playwright 和 Chrome DevTools 协议 (CDP) 公开的 DOM 中运行。 AgentCore 浏览器为此提供了一个安全、隔离的浏览器环境，它适用于绝大多数自动化：导航页面、填写表单、单击元素、提取内容。但网络层有一个硬边界。操作系统呈现的任何内容（本机对话框、安全提示、证书选择器、上下文菜单，甚至 Chrome 设置）都完全位于 DOM 之外。 CDP 看不到它，Playwright 也无法与之交互。

当 Web 应用程序调用 window.print() 并出现系统打印对话框时，Playwright 没有可与之交互的 DOM。当工作流程需要键盘快捷键或右键单击上下文菜单时，CDP 没有机制在操作系统级别发出这些命令。当浏览器会话遇到 macOS 隐私对话框、Windows 安全提示或证书选择器时，它们对 Web 自动化层是不可见的。这些场景往往会在生产中出现。它们是由特定的应用程序状态、操作系统配置或用户权限触发的，而不是在测试中触发的，在测试中，Web 内容是可预测的，足以进行验证。

具有视觉功能的代理的挑战化合物。常见的架构是捕获屏幕截图，将其发送到模型，接收回坐标或指令，然后执行。此循环适用于 Web 内容，但会破坏本机 UI 出现的那一刻。屏幕截图捕获了它，模型对此进行了推理，然后就没有什么可以采取的行动了。 CDP 无法达到操作系统呈现的内容。代理清楚地看到要做什么，但却没有办法去做。

操作系统级别操作的工作原理

代理发送操作。这可以是鼠标单击、按键或使用 InvokeBrowser 的快捷方式。

AgentCore 在整个操作系统桌面上执行操作并返回 SUCCESS 或 FAILED。

代理请求屏幕截图以观察当前屏幕状态。

支持的操作

鼠标操作

屏幕截图

DOM 交互的 CDP 可见的可预测的代理的对话框不可见的化合物不可见呈现自动化单击屏幕执行 Web 特定的截图浏览器内容操作的公开的应用程序代理操作系统 Playwright 隔离的网络层功能的级别视觉功能工作原理系统级系统配置选择器没有操作支持的