使用llmperf

基准Claude 3十四行诗在亚马逊基岩上使用LLMPERF的LLMPERF邮政加载测试LLMS首先出现在数据科学上。

来源:走向数据科学

语言模型(LLM)不一定是生产生成AI应用程序的最后一步。 MLOPS生命周期中经常被遗忘但至关重要的部分正在适当地加载您的LLM,并确保它可以承受预期的生产流量。高水平的负载测试是测试您的应用程序的实践,或者在这种情况下,您的模型具有在生产环境中所期望的流量,以确保其性能。

负载测试

过去,我们讨论了使用开源Python工具(例如Locust)对传统ML模型进行了负载测试。蝗虫有助于捕获一般绩效指标,例如每秒请求(RPS)和延迟百分位数。尽管这对更传统的API和ML模型很有效,但并未捕获LLM的完整故事。

负载测试传统ML模型 蝗虫

llms的RPS比传统ML模型低得多,并且由于其尺寸和较大的计算要求。通常,RPS度量并不能真正提供最准确的图片,因为请求可能会根据LLM的输入而大不相同。例如,您可能会有一个查询要求总结大量文本和另一个可能需要单词响应的查询。

这就是为什么令牌被视为对LLM性能的更准确表示的原因。每当LLM处理您的输入“令牌”输入时,在高级别的A代币中是一大块文本。一个令牌的不同之处在于您使用的LLM,但您可以将其视为单词,单词序列或本质上的字符。

令牌
作者的图像

让我们继续前进!如果您更像是一个基于视频的学习者

视频
注释 在这里

免责声明:我是AWS的机器学习建筑师,我的意见是我自己的。

免责声明

目录

  • llm特定指标
  • llmperf intro
  • 将llmperf应用于亚马逊基岩
  • 射线 llmperf 模型 x