本地人工智能

Gemma 4 的发布为本地模型及其重要性的讨论增添了活力。您可以下载并在您拥有的硬件上运行的模型正在与大型人工智能提供商托管的“前沿模型”竞争。这些模型已经足够适合生产使用,足够适合任务,直到 [...]

来源:O'Reilly Media _AI & ML

Gemma 4 的发布为本地模型及其重要性的讨论增添了活力。您可以下载并在您拥有的硬件上运行的模型正在与大型人工智能提供商托管的“前沿模型”竞争。这些模型已经足够适合生产使用,也足够适合最近需要对前沿模型进行 API 调用的任务。它们通常是开放权重(尽管不是开源的)并且比 Anthropic 的 Claude 等前沿模型小得多。

本地化的原因各不相同。对于金融服务公司来说,监管可能要求任何敏感数据都不能离开该场所。对于欧洲的开发者来说,数据主权法让云 API 变得尴尬。对于中国的开发商来说,硬件限制和地缘政治使得本地、高效的模型成为实际需要。对于美国以外的开发者来说,使用前沿模型的成本可能令人望而却步。这些原因都不是新的,但它们都比一年前更加紧迫,因为模型正在迎头赶上。

为什么是本地的?

在本地运行人工智能的原因分为几类:成本、隐私、性能和控制。让我按顺序排列它们。

成本是最容易量化的,尽管数字可能会产生误导。使用代理工具进行编程的开发人员每月可能会在 API 调用上花费 500 至 1,000 美元或更多。 NVIDIA 首席执行官黄仁勋建议,考虑到生产力回报,他的工程师应该将大约相当于其工资一半的金额用于购买 AI 代币。无论您是否将此视为规范性建议,它都表明大规模代币支出非常重要,这正是本地替代方案值得研究的原因。

美国以外的世界

本地人工智能采用背后最强劲的动力来自美国以外的开发者和组织。原因因地区而异,但到处都是结构性的。

性能

针对特定应用进行微调

安全

当前开放模型格局

选择和控制