OpenAI
OpenAI本周稍早在第一届开发者大会上宣布客制化ChatGPT、GPT-4 Turbo等服务后,昨(9)日发表了资料合作伙伴方案(OpenAI Data Partnerships),除了帮企业整理或数位化资料,同时取得网路上找不到的开源与私有资料集来训练其AI模型。
要训练出有用且安全的AI,需要其资料集能涵括多种主题、产业、文化及语言,因此OpenAI之前曾和多个组织合作,以将其资料纳入其训练资料集,包括冰岛政府及一家软体业者提供冰岛语资料,法律非营利组织自由法律专案(Free Law Project)则提供大量法律文件。OpenAI指出,资料合作伙伴方案的目的在将企业组织的资料加入OpenAI的资料集,以便其模型能产出更正确、符合其产业或文化需求的回应。
OpenAI需要不易在公开网际网路上取得的,且能反映人类社会的大量资料。该公司能处理多种模态的资料,包括文字、图片、影片及声音,他们对能表达人类意图的资料尤其感兴趣,像是很长的文字或对话,而非不连续的片段,且不论文字、主题或格式都欢迎。
OpenAI强调,除了取得合作伙伴资料,他们也会用其自行开发的AI科技,协助企业合作伙伴数位化及结构化资料资产。例如他们有光学字元辨识(optical character recognition,OCR)技术可将PDF数位化,或使用自动语音辨识将口语资料录写下来。如果资料需要清洗,像是自动产生的符号或转录错误,OpenAI也能协助处理。OpenAI谢绝包含敏感或个人资料,或是非企业自有的第三方资料,但如果企业资料中包含这些元素,OpenAI也能帮忙去除。
以资料来源区分,OpenAI透过合作伙伴取得开源资料储存库,以及组织自有的资料集。OpenAI计划利用前者训练开源模型。利用组织自有资料集,他们将训练自己的基础AI模型,或是微调及客制化模型。如果合作组织希望保有资料,又希望OpenAI模型能更了解其领域,甚至合作组织自己想开发模型,OpenAI表示会提供合作伙伴属意的安全防护,以及资料控制权,有兴趣的企业组织可以填写表格以加入合作计划。
这项合作除了帮助OpenAI取得更多元资料训练其GPT、DALL-E等模型,以提升生成结果的品质,也能避免侵害版权或隐私的争议。OpenAI过去利用爬虫技术在网际网路上撷取文字及影音资料,已引来作家及出版商的控诉官司。