双子座2.5：我们最聪明的模型变得更好 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

双子座2.5：我们最聪明的模型变得更好

2025年5月20日 09:45 33 Comments

我们正在推出一种新的，最先进的视频模型，即veo 2，并更新Imagen 3。此外，请查看我们的新实验，搅拌。

来源:DeepMind - 新闻与博客

今天，Live API 推出了视听输入和本机音频输出对话的预览版，因此您可以直接构建对话体验，使用更自然、更具表现力的 Gemini。

实时 API

它还允许用户控制其语气、口音和说话风格。例如，您可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用，能够代表您进行搜索。

您可以尝试一组早期功能，包括：

情感对话，其中模型检测用户声音中的情感并做出适当响应。主动音频，其中模型将忽略背景对话并知道何时响应。Live API 中的思考，其中模型利用 Gemini 的思维能力来支持更复杂的任务。

情感对话，其中模型检测用户声音中的情感并做出适当的响应。

主动音频，其中模型将忽略后台对话并知道何时响应。

Live API 中的思考，其中模型利用 Gemini 的思考能力来支持更复杂的任务。

我们还在 2.5 Pro 和 2.5 Flash 中发布了文本转语音的新预览。它们首次支持多个扬声器，通过本机音频输出实现两种声音的文本到语音转换。

与原生音频对话一样，文本转语音具有表现力，并且可以捕获真正微妙的细微差别，例如耳语。它支持超过 24 种语言，并且可以在它们之间无缝切换。