可容纳可变流量,而不会损害系统可用性和响应质量。ML推理工作负载也不例外。他们可能会处理大量查询量,某些系统每天处理超过200万亿查询[4]。它们在严格的延迟约束中运行,通常在100至300毫秒之间[5]。此外,它们可能会面临不断变化的交通模式,包括可预测的变化,例如峰值和非高峰使用情况(例如,白天,夜间或季节性或季节性)以及不可预测的破坏,包括由趋势主题,一个关闭式应用程序过载或系统变化触发的数据冲刺[6,7]。要克服这些不同的负载,系统必须动态扩展资源,同时保持效率和系统稳定性(可用性和响应准确性)。
主要关键词