OpenAI公布Realtime API預覽版、GPT-4o圖片微調等開發服務

在经过上周的高层人事出走及超大型募资等争议新闻后，OpenAI本周举行开发者大会DevDay，宣布包含GPT-4o图片微调、开发逼真对话功能的Realtime API等新功能，供开发人员开发结合GPT-4o、4o mini模型的AI应用。

DevDay上OpenAI宣布的新功能包括Realtime API、视觉微调、提示快取（Prompt Caching in the API）以及模型蒸馏。其中Realtime API为beta版，让开发商得以将接近ChatGPT进阶语音模式（Advanced Voice Mode）的对话能力整合在自己的AI助理。

Realtime API让开发人员得以打造低延迟、多模态的口语对话体验。目前支援文字、语音的输出、输入，也支援函式呼叫。Realtime API提供原生语音输入、语音输出的生成，无需文字转换，意谓输出延迟更低。此外，其模型具有自然可操控的人声表现，能提供自然语调变化，能表达和语气一致化的笑、低声说话等声音表情。

昨日OpenAI宣布正式推出视觉微调功能。OpenAI在8月份推出GPT-4o微调服务时，只支援上传文字资料集微调，现在加入图片支援。这表示开发人员可以上传图片资料集，以强化GPT-4o的图像理解功能，用于开发具有进阶视觉搜寻应用、自驾车或智慧城市的物件侦测应用，或是医疗影像分析。

OpenAI表示，微调GPT-4o的图像资料集不需太多，最少只需上传100张图像。在公开前，OpenAI已经和一些伙伴合作测试，包括东南亚最大餐食外送及汽车共享平台Grab、企业流程AI代理开发商Automat和网页AI开发助理开发商Coframe等。

视觉微调服务基础模型为gpt-4o-2024-08-06，在10月31日前提供每日100万训练字词（token）免费。之后收费为每100万字词输入25美元。若想使用推论服务，则费用为100万字词输入3.75美元，100万字词输出15美元。图片输入会依图片大小字词化（tokenized）以用于计价。

第三项则是API提示快取服务。许多开发人员在不同API呼叫会重复使用同一种操作，像是编辑codebase或设定聊天机器人多来回对话。使用提示快取可让开发人员重复使用输入字词，可减少50%开发成本及加速提示处理时间，降低延迟性。

这项服务是将已运算过的提示的最长前缀字元（prefix）快取在API中，这功能会对1024字词以上的提示提供快取。只要重复使用到有共同前缀字元的，就会自动适用折扣，用户不需设定。快取的字元一般会在停用5到10分钟内清除，1小时内就会完全删除。

提示快取服务已经上线，提示快取会自动适用在最新版GPT-4o、GPT-4o mini、OpenAI o1-mini或是这些模型的微调版本。经过快取的提示，价格比未快取的提示来得低。例如以新的gpt-4o-2024-08-06模型为例，未快取与快取的费用各为2.50和1.25美元，而经过微调的模型则各为3.75和1.875美元。

资料来源／OpenAI

最后是模型蒸馏（model distillation）和评估。模型蒸馏允许开发人员使用大型模型微调成较小模型的成果，使模型适用於单一任务，有助于降低延迟性及降低成本。使用这项功能的步骤是，先以completions API储存（用store参数）大模型的高品质成果，再评估大小模型建立基准线，之后选择欲蒸馏的部分，用以微调小型模型。最后，再比较大模型及微调后的小模型效果。

OpenAI公布Realtime API预览版、GPT-4o图片微调等开发服务