数据机器 #253 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

数据机器 #253

2024年5月19日 10:51 33 Comments

Google AI Blast。 Gemini Pro 1.5。 Gemini 1.5 Flash。 PaliGemma。 Project Astra。委托给 AI 代理。 NVIDIA ChatQA 1.5。 Parler-TTS Mini:Expresso。 DeepMind CAT3D。 Meta AI Chameleon。 KAN 解释

来源:数据机器

谷歌 AI Blast 。本周，OpenAI 发布了一个名为 GPT-4o（全称：Hello GPT-4o）的新封闭模型，该模型可以实时推理音频、视觉和文本。看来，该模型在许多基准测试中的表现并不像许多 AI 专家预期的那么好。

谷歌 AI Blast 。 本周，OpenAI 发布了一个名为 GPT-4o（全称：Hello GPT-4o）的新封闭模型，该模型可以实时推理音频、视觉和文本。。看来，该模型在许多基准测试中的表现并不像许多 AI 专家预期的那么好。就在人工智能社区的许多人感到困惑并讨论 GPT-4o 的“调情”方面时，谷歌出现了，掀起了一场大规模的人工智能风暴，包括 SOTA 模型、新的强大的开放模型和相当惊人的工具。以下是我对谷歌发布内容的总结：

Gemini 1.5 Pro 模型更新：在编码、推理、翻译、多模态等方面有很多改进。一些关键更新包括：

Gemini 1.5 Pro 模型更新：

在编码、推理、翻译、多模态等方面有很多改进。一些关键更新包括： 多模式提示，使用任何文本、图像、音频和视频数据提示模型；自定义函数调用，实现与外部世界系统的实时交互；根据特定要求或用例引导模型行为的指令；上下文缓存，以降低包含高输入令牌计数的重复内容的请求成本；值得注意的是，上下文大小扩展到 200 万个令牌！谷歌研究人员表示，Gemini Pro 1.5 可以完美检索（>99%）至少 1000 万个令牌，大大击败了 Claude 3.0（200k）和 GPT-4 Turbo（128k）。

多模态提示，使用任何文本、图像、音频和视频数据提示模型

多模态提示

使用任何文本、图像、音频和视频数据提示模型自定义函数调用，实现与外部世界的实时交互

谷歌 4o 音频内容视频数据提示使用 AI 发布 GPT 方面模型模态文本

数据机器 #253

其他外部链接

Tags

XiaoMi-AI