基于企业用例的 LLM 评估

生成式 AI 评估策略继续阅读 Towards Data Science »

来源:走向数据科学

基于企业用例的 LLM 评估

基于企业用例的 LLM 评估

生成式 AI 评估策略

图:企业 LLM 用例评估策略(作者提供图片)
图:企业 LLM 用例评估策略(作者提供图片)

简介

我们正处于生成式 AI 采用之旅的关键时刻,我们开始听到关于 Gen AI 变革潜力的相互矛盾的观点。

大型语言模型 (LLM) 提供商,例如 Open AI、Mistral、Google、Meta 等,正在推出一个又一个 LLM — 每次迭代都比前一次更小、更高效。但这些都是通用的预训练 LLM,没有明确的业务用例,或者说,特定业务用例仍需要在这些基础 LLM 之上开发。因此,这些 LLM 只是一个推动因素,而不是衡量业务影响的指标。当然,我们确实有超大规模企业和技术供应商吹嘘他们已经实施的数百(或数千)个基于 LLM 的用例,这些用例具有量化的业务价值。

另一方面,我们看到企业/专家开始对 Gen AI 持更“悲观”的看法。例如,高盛最近的报告就是一个很好的例子。标题为 Gen AI:花费太多,收益太少?是不言自明的,我不会详细阐述——可以说,虽然没有人否认 Gen AI 的未来潜力,但他们没有看到 Gen AI(截至目前)解决任何复杂问题……

Gen AI:花费太多,收益太少?