详细内容或原文请订阅后点击阅览
平衡精度,成本和现实世界的性能与Nvidia Nemotron模型
了解如何与Nvidia nemotron模型和SYFTR平衡准确性,成本和现实世界的表现,以提高,可重复的,可重复的生产就绪的AI评估。在DataRobot上首先出现在DataRobot上的Nemotron Models与NVIDIA NeMotron模型的后平衡准确性,成本和实际性能。
来源:DataRobot博客每周,都会发布新型号以及数十个基准。但是,这对于决定使用哪种模型的从业者意味着什么?他们应该如何评估新发布的模型的质量?基准能力(例如推理)如何转化为现实世界的价值?
在这篇文章中,我们将评估新发布的Nvidia Llama Nemotron Super 49b 1.5型号。我们使用SYFTR,即我们的生成AI工作流程探索和评估框架,以实现真实业务问题的分析并探索多目标分析的权衡。
NVIDIA LLAMA NEMOTRON SUPER 49B 1.5 syftr在检查了一千多个工作流程后,我们就模型发光的用例提供了可行的指导。
参数数量的数量,但不是所有内容
参数计数驱动了服务LLM的大部分成本也就不足为奇了。重量需要加载到内存中,并缓存键值(KV)矩阵。较大的型号通常表现更好 - 边境模型几乎总是庞大的。 GPU的进步是通过启用这些日益大型模型来实现AI崛起的基础。
但仅比例并不能保证表现。
新一代的模型通常超过其更大的前辈,即使在相同的参数计数上也是如此。来自NVIDIA的Nemotron模型就是一个很好的例子。这些模型建立在现有的开放模型,修剪不必要的参数以及提炼新功能的基础上。
nemotron这意味着较小的Nemotron模型通常可以在多个维度上胜过其较大的前身:更快的推理,较低的内存使用和更强的推理。
我们想量化这些权衡,尤其是针对当前一代中一些最大的模型。
更准确?高效多少?因此,我们将它们加载到我们的集群上并开始工作。
我们如何评估准确性和成本
步骤1:确定问题
要正确回答两种类型的问题,模型需要:
步骤2:工作流程的模型
每次 github