OpenAI 为开发人员推出 Realtime API 和其他功能 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

OpenAI 为开发人员推出 Realtime API 和其他功能

2024年10月2日 07:55 33 Comments

OpenAI 在其 Dev Day 活动上没有发布任何新模型，但新的 API 功能将让想要使用他们的模型构建强大应用程序的开发人员感到兴奋。OpenAI 经历了艰难的几周，其首席技术官 Mira Murati 和其他首席研究员加入了不断增长的前雇员名单。该公司正面临来自其他旗舰模型的越来越大的压力，包括为开发人员提供更便宜、更强大的选择的开源模型。OpenAI 推出的新功能包括 Realtime API（测试版）、视觉微调和效率提升工具（如快速缓存和模型蒸馏）。Realtime API Realtime API 是 OpenAI 为开发人员推出 Realtime API 和其他功能的帖子首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

OpenAI在其开发日活动中没有发布任何新型号，但是新的API功能会激发想要使用模型来构建功能强大应用程序的开发人员。

Openai与CTO，Mira Murati和其他校长一起工作了几个星期，并加入了不断增长的前员工名单。该公司面临着其他旗舰型号的压力，包括开源车型，这些型号为开发人员提供便宜且功能强大的选择。

新功能OpenAI揭幕是实时API（在beta中），视觉微调和提高效率的工具，例如及时的缓存和型号蒸馏。

实时API

实时API是最令人兴奋的新功能，尽管在Beta中。它使开发人员能够在其应用程序中构建低延迟，语音到语音体验，而无需使用单独的模型进行语音识别和文本到语音转换。

使用此API，开发人员现在可以通过单个API调用来创建与AI进行实时对话的应用程序，例如语音助手或语言学习工具。 GPT-4O的高级语音模式提供的并不是无缝的体验，但它很接近。

这并不便宜，每分钟的音频输入约为0.06美元，音频输出$ 0.24。

视觉微调

API中的视觉微调使开发人员可以增强其模型理解和与图像互动的能力。通过使用图像对GPT-4O进行微调，开发人员可以创建在视觉搜索或对象检测等任务中出色的应用程序。

此功能已经被Grab等公司所利用，该公司通过微调模型来识别街道级图像中的交通标志，从而提高了其映射服务的准确性。

OpenAI还举了一个示例，说明了GPT-4O在经过微调以符合该网站现有内容后如何为网站生成其他内容。

提示缓存

使用缓存的输入可以节省多达50％的输入令牌成本。

模型蒸馏

语音视觉开发人员 OpenAI 应用程序语音识别使用缓存提高模型 API 输入功能准确性音频输出不完全测试版音频输入研究员构建微调交通标志