专有数据集:在主流生成AI炒作的早期,直到2023年,生成的AI创始人都强调了数据护城河。许多人建立了自己的模型或获得了用于专业的微调和增强学习的大型数据集。这种策略很早就起作用,使他们可以在狭窄的领域中进行区分。但是,GPT-4的发布改变了景观。具有较大的模型大小,扩展的上下文窗口以及90-95%的精度,GPT-4需要较少广泛的微调才能实现强大的性能。甚至数据集曾经被认为是独特的(例如专门的放射学图像或法律合同),它们的一些护城河价值是在广泛的数据竞争的特定于域特异性准确性的模型中。更耐用的防御是一个“闭环”系统,可连续捕获特定于客户的结果数据。随着时间的流逝,个性化的历史成为复制的障碍。
主要关键词