通过推断AWS本地区域的边缘推断

本指南展示了如何通过在三个位置上的亚马逊EC2实例上的face部署开源基础模型:商业AWS地区和两个AWS本地区域。通过比较基准测试,我们说明在接近最终用户的本地区域中部署基础模型如何显着减少延迟,这是实时应用程序(例如对话式AI助手助手)的关键因素。

来源:亚马逊云科技 _机器学习
生成AI的最新进展导致了由基础模型(FMS)提供支持的新一代对话AI助手的扩散。这些对延迟敏感的应用程序可以实时文本和语音互动,自然而然地响应人类的对话。它们的应用程序涵盖了各个领域,包括客户服务,医疗保健,教育,个人和业务生产力以及许多其他领域。反向的AI助手通常直接部署在用户的设备上,例如智能手机,平板电脑或台式计算机,可以快速,本地的语音或文本输入来快速,本地处理。但是,在强大的GPU上运行的是助手的自然语言理解和响应产生的FM通常是云托管的。当用户与AI助手进行交互时,他们的设备首先在本地处理输入,包括语音代理的语音到文本(STT)转换,并编译提示。然后,通过网络将此提示牢固地传输到基于云的FM。 FM分析提示并开始生成适当的响应,将其流回用户的设备。该设备进一步处理此响应,包括语音代理的文本到语音转换,然后再向用户呈现。如下图所示,这种有效的工作流程在基于云的FM的强大功能与本地设备互动的便利性和响应能力之间取得了平衡。开发此类应用程序的关键挑战是降低响应延迟以实现实时自然互动。响应延迟是指用户完成演讲和开始听到AI助手的回应之间的时间。此延迟通常包括两个主要组成部分:在设备处理延迟中 - 这涵盖了本地处理所需的时间,包括TTS和STT操作。