在预算内托管语言模型

了解如何使用轻量级模型和 Hugging Face Spaces 免费运行您自己的语言模型。

来源:KDnuggets

简介

ChatGPT,克劳德,双子座。你知道这些名字。但这里有一个问题:如果您运行自己的模型怎么办?听起来雄心勃勃。它不是。您可以在 10 分钟内部署一个有效的大型语言模型 (LLM),而无需花费一美元。

本文对此进行了分解。首先,我们会弄清楚您真正需要什么。然后我们会看看实际成本。最后,我们将免费在 Hugging Face 上部署 TinyLlama。

在启动模型之前,您可能会有很多问题。例如,我希望我的模型执行哪些任务?

让我们尝试回答这个问题。如果您需要 50 个用户的机器人,则不需要 GPT-5。或者,如果您计划每天对​​ 1,200 多条推文进行情感分析,您可能不需要具有 500 亿个参数的模型。

让我们首先看看一些流行的用例以及可以执行这些任务的模型。

如您所见,我们将模型与任务相匹配。这是您在开始之前应该做的事情。

细分举办法学硕士课程的实际成本

现在您知道自己需要什么,让我告诉您它的价格是多少。主持模型不仅仅是关于模型;更是关于模型。它还涉及该模型的运行位置、运行频率以及与其交互的人数。让我们来解码一下实际成本。

计算:您将面临的最大成本

如果您在 Amazon Web Services (AWS) EC2 上运行中央处理单元 (CPU) 24/7,则每月费用约为 36 美元。但是,如果您运行图形处理单元 (GPU) 实例,每月的成本约为 380 美元,是成本的 10 倍以上。因此,在计算大型语言模型的成本时要小心,因为这是主要的支出。

(计算结果为近似值;要查看实际价格,请在此处查看:AWS EC2 定价)。

存储:成本很小,除非您的模型很大

带宽:在扩大规模之前很便宜

(计算结果为近似值;要查看实际价格,请在此处查看:AWS 数据传输定价)。

您现在可以使用的免费托管选项

选择一个您可以实际运行的模型

在 5 分钟内部署 TinyLlama