数据机器 #253
Google AI Blast。 Gemini Pro 1.5。 Gemini 1.5 Flash。 PaliGemma。 Project Astra。 委托给 AI 代理。 NVIDIA ChatQA 1.5。 Parler-TTS Mini:Expresso。 DeepMind CAT3D。 Meta AI Chameleon。 KAN 解释
来源:数据机器谷歌 AI Blast 。本周,OpenAI 发布了一个名为 GPT-4o(全称:Hello GPT-4o)的新封闭模型,该模型可以实时推理音频、视觉和文本。看来,该模型在许多基准测试中的表现并不像许多 AI 专家预期的那么好。
谷歌 AI Blast 。 本周,OpenAI 发布了一个名为 GPT-4o(全称:Hello GPT-4o)的新封闭模型,该模型可以实时推理音频、视觉和文本。 。看来,该模型在许多基准测试中的表现并不像许多 AI 专家预期的那么好。 就在人工智能社区的许多人感到困惑并讨论 GPT-4o 的“调情”方面时,谷歌出现了,掀起了一场大规模的人工智能风暴,包括 SOTA 模型、新的强大的开放模型和相当惊人的工具。以下是我对谷歌发布内容的总结:Gemini 1.5 Pro 模型更新:在编码、推理、翻译、多模态等方面有很多改进。一些关键更新包括:
Gemini 1.5 Pro 模型更新:
在编码、推理、翻译、多模态等方面有很多改进。一些关键更新包括: 多模式提示,使用任何文本、图像、音频和视频数据提示模型;自定义函数调用,实现与外部世界系统的实时交互;根据特定要求或用例引导模型行为的指令;上下文缓存,以降低包含高输入令牌计数的重复内容的请求成本;值得注意的是,上下文大小扩展到 200 万个令牌!谷歌研究人员表示,Gemini Pro 1.5 可以完美检索(>99%)至少 1000 万个令牌,大大击败了 Claude 3.0(200k)和 GPT-4 Turbo(128k)。- 多模态提示,使用任何文本、图像、音频和视频数据提示模型
多模态提示
使用任何文本、图像、音频和视频数据提示模型 自定义函数调用,实现与外部世界的实时交互