与大型语言模型(LLM)相关的碳足迹是一个非常关注的问题,包括其培训,推理,实验和存储过程中的排放,包括运营和体现的碳排放。一个重要方面是准确地估算出新兴LLM的碳影响,甚至在训练之前,这在很大程度上依赖于GPU使用。现有研究报告了LLM培训的碳足迹,但只有一种工具MLCO2可以预测进行体育锻炼之前新神经网络的碳足迹。但是,MLCO2有几个严重的局限性。它不能将其估计扩展到浓密或混合物(MOE)LLMS,无视关键的体系结构参数,仅关注GPU,并且无法建模固定的碳足迹。解决这些差距,我们引入了llmcarbon,这是一种端到端的碳足迹投影模型,均为密集和Moe LLMS设计。与MLCO2相比,LLMCarbon显着提高了各种LLM的碳足迹估计的准确性。源代码在https://github.com/sotarokaneda/mlcarbon上发布。
主要关键词