我们在现实世界的商业用例上测试了 o1(结果令人惊讶)

OpenAI 的新 o1 推理模型因其逐步思考问题的能力而引起了广泛关注。但它在现实世界的商业场景中的表现如何?

来源:营销人工智能研究所

OpenAI 的新 o1 推理模型因其逐步思考问题的能力而引起了极大的轰动。但它在实际商业场景中的表现如何?

OpenAI 的新 o1 推理模型因其逐步思考问题的能力而引起了极大的轰动。但它在实际商业场景中的表现如何? 新的 o1 推理模型

在 Marketing AI Institute,我们将其与 GPT-4o 进行了测试——结果令人惊讶。在《人工智能秀》第 127 集中,我和创始人/首席执行官 Paul Roetzer 详细分析了我们从 o1 的实际测试中学到的东西。

人工智能秀第 127 集 人工智能秀第 127 集

真实世界的测试结果

为了测试 o1,Roetzer 和我将两种模型放在一起,用于我们在自己的工作中试图完成的真实世界业务任务。

“我们试图得到的是:业务用例是什么?”Roetzer 说。“每当我测试事物时,我都会尝试使用真实生活中的情况,以便评估这是否真的会对我的生活产生影响。”

我们并没有试图解决复杂的数学或科学问题,而 o1 也擅长这些。 (主要是因为我们都不知道如何有效判断 o1 针对这些类型的问题产生的输出。

Roetzer 专门针对他试图解决的一个复杂问题测试了 o1 与 GPT-4o,该问题与我们其中一款教育产品的定价有关。

“我给了它几件我想做的事情,然后我说基本上帮我分析一下,这是我的目标,我如何最好地实现这个目标,我想要的结果,我告诉它,问任何你需要的澄清问题,”他说。

我在用例中执行了类似的测试,例如:回答有关我们播客的策略问题、根据性能数据创建内容策略以及根据我们在一次研讨会上收集的数据制作复杂的战略简报。

o1 对知识工作的影响