仅针对大型语言模型(LLM)推断的筹码越来越多,例如Groq,Sambanova,Amazon Web Services(AWS)推论(他们还开发了Trainium Chip Specialized用于培训)。每个主要玩家都试图开发自己的硬件加速器,由Google凭借其张量处理单元(TPU)(现在是Trillium,第六代Google Cloud TPU)率先开发,例如。aws,Meta及其下一个Genmtia [meta-mtia]等。拥有一个专门的推理芯片不仅允许提高效率(在为训练大型型号的一项大型任务中提供了不同的要求,以提供大量的用户的推理),而且还会降低延迟,这对聊天机器人来说不是一个真正的问题(用户不能更快地写或读取),但对于代理商AI非常有用,而对于代理AI非常有用。
主要关键词