集中式AI模型推理的情况

优化高度平行的AI算法执行,首先在数据科学方面出现了集中式AI模型推理的案例。

来源:走向数据科学

模型继续提高范围和准确性,即使是一旦由传统算法主导的任务也逐渐被深度学习模型所取代。算法管道 - 进行输入,通过一系列算法处理并产生输出的工作流程越来越依赖一个或多个基于AI的组件。这些AI模型通常具有与经典同行的资源需求明显不同,例如更高的内存使用情况,对专用硬件加速器的依赖以及增加的计算需求。

深度学习

在这篇文章中,我们解决了一个共同的挑战:通过包括深度学习模型的算法管道有效处理大规模输入。一个典型的解决方案是运行多个独立作业,每个作业都负责处理单个输入。这种设置通常由工作编排框架(例如Kubernetes)进行管理。但是,当涉及深度学习模型时,这种方法可能会效率低下,因为在每个过程中加载和执行相同的模型可以导致资源争夺和扩展限制。随着AI模型在算法管道中变得越来越普遍,我们至关重要的是,我们重新审视此类溶液的设计。

kubernetes

在这篇文章中,我们评估了集中推理服务的好处,其中专用推理服务器处理来自多个并行作业的预测请求。我们定义了一个玩具实验,在该实验中,我们根据1,000个单独图像的Resnet-152图像分类器运行图像处理管道。我们比较以下两个实现的运行时性能和资源利用:

推理 resnet-152
    分散的推论 - 每个作业都加载并独立运行模型。中央化推理 - 所有作业都将推理请求发送到专用推理服务器。
  • 分散的推理 - 每个作业都加载并独立运行模型。
  • 分散推理 集中推理 kitty.jpg therchserve Litserve

    玩具实验

    在这里