详细内容或原文请订阅后点击阅览
双子座2.5:我们最聪明的模型变得更好
我们正在推出一种新的,最先进的视频模型,即veo 2,并更新Imagen 3。此外,请查看我们的新实验,搅拌。
来源:DeepMind - 新闻与博客Gemini 2.5 的新功能
本机音频输出和 Live API 的改进
今天,Live API 推出了视听输入和本机音频输出对话的预览版,因此您可以直接构建对话体验,使用更自然、更具表现力的 Gemini。
实时 API它还允许用户控制其语气、口音和说话风格。例如,您可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表您进行搜索。
您可以尝试一组早期功能,包括:
- 情感对话,其中模型检测用户声音中的情感并做出适当响应。主动音频,其中模型将忽略背景对话并知道何时响应。Live API 中的思考,其中模型利用 Gemini 的思维能力来支持更复杂的任务。
我们还在 2.5 Pro 和 2.5 Flash 中发布了文本转语音的新预览。它们首次支持多个扬声器,通过本机音频输出实现两种声音的文本到语音转换。
与原生音频对话一样,文本转语音具有表现力,并且可以捕获真正微妙的细微差别,例如耳语。它支持超过 24 种语言,并且可以在它们之间无缝切换。
