详细内容或原文请订阅后点击阅览
以下是我们尝试 Gemini 3“Deep Think”和 Google 的无代码代理时发生的情况
Google 正在积极突破其人工智能模型的功能以及使用它们的容易程度。
来源:营销人工智能研究所Google 正在积极突破其人工智能模型的功能以及使用它们的容易程度。
最新的例子之一:这家科技巨头刚刚推出了两项重大更新:Gemini 3 Deep Think 模式和 Google Workspace Studio。
Deep Think 承诺解决困扰其他模型的复杂逻辑问题。 Workplace Studio 承诺让任何人无需编写一行代码即可构建 AI 代理。
为了了解这些版本的重要性并测试它们是否兑现了这一承诺,我与 SmarterX 和 Marketing AI Institute 创始人兼首席执行官 Paul Roetzer 在《人工智能秀》第 184 集中查看了详细信息。
深入思考解决复杂问题
Deep Think 旨在解决复杂的数学、科学和逻辑挑战,目前仅在 Google AI Ultra(Google 的顶级 Gemini 计划)中提供,价格为 250 美元/月。
谷歌表示,该模型在严格的基准测试中取得了行业领先的成绩,其中包括“人类最后的考试”基准测试(不使用工具)的 41% 和史无前例的 ARC-AGI-2 基准测试的 45.1%,该基准测试衡量系统与一般人类智能的接近程度。
真正令人惊奇的是模型如何获得这些分数。实际上,它需要思考更长时间,才能得到更好的答案。
Roetzer 解释说,这是人工智能开发中一个重要的“缩放法则”的结果:测试时计算,这意味着在模型给出答案之前给模型更多的时间思考。
“这是一个新兴的原则,即可以通过在使用时分配更多的计算能力来提高模型在困难任务上的性能,”Roetzer 说。
“这意味着您可以通过让同一模型思考更长时间并在给出最终响应之前仔细检查其工作,从而从同一模型中获得更好的答案。”
无需代码即可构建代理
Deep Think 的目标是繁重的认知工作,而 Google Workspace Studio 则专注于运营效率。
“我对此感到非常兴奋,”他说。
