详细内容或原文请订阅后点击阅览
双子座2.5:我们最聪明的模型变得更好
gemini 2.5 Pro继续受到开发人员的喜爱,作为编码的最佳模型,新更新的2.5 Flash变得更好。我们正在为模型带来新的功能,包括深思熟虑,这是2.5 Pro的实验增强推理模式。
来源:DeepMind - 新闻与博客Gemini 2.5 的新功能
本机音频输出和 Live API 的改进
今天,Live API 推出了视听输入和本机音频输出对话的预览版,因此您可以直接构建对话体验,使用更自然、更具表现力的 Gemini。
实时 API它还允许用户控制其语气、口音和说话风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表您进行搜索。
您可以尝试一组早期功能,包括:
- 情感对话,其中模型检测用户声音中的情感并做出适当响应。主动音频,其中模型将忽略背景对话并知道何时响应。Live API 中的思考,其中模型利用 Gemini 的思维能力来支持更复杂的任务。
我们还在 2.5 Pro 和 2.5 Flash 中发布了文本转语音的新预览。它们首次支持多个扬声器,通过本机音频输出实现两种声音的文本到语音转换。
与原生音频对话一样,文本转语音具有表现力,并且可以捕获真正微妙的细微差别,例如耳语。它支持超过 24 种语言,并且可以在它们之间无缝切换。
