OpenAI公布Realtime API预览版、GPT-4o图片微调等开发服务

在经过上周的高层人事出走及超大型募资等争议新闻后,OpenAI本周举行开发者大会DevDay,宣布包含GPT-4o图片微调、开发逼真对话功能的Realtime API等新功能,供开发人员开发结合GPT-4o、4o mini模型的AI应用。

DevDay上OpenAI宣布的新功能包括Realtime API、视觉微调、提示快取(Prompt Caching in the API)以及模型蒸馏。其中Realtime API为beta版,让开发商得以将接近ChatGPT进阶语音模式(Advanced Voice Mode)的对话能力整合在自己的AI助理。

Realtime API让开发人员得以打造低延迟、多模态的口语对话体验。目前支援文字、语音的输出、输入,也支援函式呼叫。Realtime API提供原生语音输入、语音输出的生成,无需文字转换,意谓输出延迟更低。此外,其模型具有自然可操控的人声表现,能提供自然语调变化,能表达和语气一致化的笑、低声说话等声音表情。

昨日OpenAI宣布正式推出视觉微调功能。OpenAI在8月份推出GPT-4o微调服务时,只支援上传文字资料集微调,现在加入图片支援。这表示开发人员可以上传图片资料集,以强化GPT-4o的图像理解功能,用于开发具有进阶视觉搜寻应用、自驾车或智慧城市的物件侦测应用,或是医疗影像分析。

OpenAI表示,微调GPT-4o的图像资料集不需太多,最少只需上传100张图像。在公开前,OpenAI已经和一些伙伴合作测试,包括东南亚最大餐食外送及汽车共享平台Grab、企业流程AI代理开发商Automat和网页AI开发助理开发商Coframe等。

视觉微调服务基础模型为gpt-4o-2024-08-06,在10月31日前提供每日100万训练字词(token)免费。之后收费为每100万字词输入25美元。若想使用推论服务,则费用为100万字词输入3.75美元,100万字词输出15美元。图片输入会依图片大小字词化(tokenized)以用于计价。

第三项则是API提示快取服务。许多开发人员在不同API呼叫会重复使用同一种操作,像是编辑codebase或设定聊天机器人多来回对话。使用提示快取可让开发人员重复使用输入字词,可减少50%开发成本及加速提示处理时间,降低延迟性。

这项服务是将已运算过的提示的最长前缀字元(prefix)快取在API中,这功能会对1024字词以上的提示提供快取。只要重复使用到有共同前缀字元的,就会自动适用折扣,用户不需设定。快取的字元一般会在停用5到10分钟内清除,1小时内就会完全删除。

提示快取服务已经上线,提示快取会自动适用在最新版GPT-4o、GPT-4o mini、OpenAI o1-mini或是这些模型的微调版本。经过快取的提示,价格比未快取的提示来得低。例如以新的gpt-4o-2024-08-06模型为例,未快取与快取的费用各为2.50和1.25美元,而经过微调的模型则各为3.75和1.875美元。

资料来源/OpenAI

最后是模型蒸馏(model distillation)和评估。模型蒸馏允许开发人员使用大型模型微调成较小模型的成果,使模型适用於单一任务,有助于降低延迟性及降低成本。使用这项功能的步骤是,先以completions API储存(用store参数)大模型的高品质成果,再评估大小模型建立基准线,之后选择欲蒸馏的部分,用以微调小型模型。最后,再比较大模型及微调后的小模型效果。