双子座2.5:我们最聪明的模型变得更好

gemini 2.5 Pro继续受到开发人员的喜爱,作为编码的最佳模型,新更新的2.5 Flash变得更好。我们正在为模型带来新的功能,包括深思熟虑,这是2.5 Pro的实验增强推理模式。

来源:DeepMind - 新闻与博客

Gemini 2.5 的新功能

本机音频输出和 Live API 的改进

今天,Live API 推出了视听输入和本机音频输出对话的预览版,因此您可以直接构建对话体验,使用更自然、更具表现力的 Gemini。

实时 API

它还允许用户控制其语气、口音和说话风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表您进行搜索。

您可以尝试一组早期功能,包括:

    情感对话,其中模型检测用户声音中的情感并做出适当响应。主动音频,其中模型将忽略背景对话并知道何时响应。Live API 中的思考,其中模型利用 Gemini 的思维能力来支持更复杂的任务。
  • 情感对话,其中模型检测用户声音中的情感并做出适当的响应。
  • 主动音频,其中模型将忽略后台对话并知道何时响应。
  • Live API 中的思考,其中模型利用 Gemini 的思考能力来支持更复杂的任务。
  • 我们还在 2.5 Pro 和 2.5 Flash 中发布了文本转语音的新预览。它们首次支持多个扬声器,通过本机音频输出实现两种声音的文本到语音转换。

    与原生音频对话一样,文本转语音具有表现力,并且可以捕获真正微妙的细微差别,例如耳语。它支持超过 24 种语言,并且可以在它们之间无缝切换。