OpenAI啟動合作夥伴計畫，以擴大取得模型訓練資料集

图片来源:

OpenAI

OpenAI本周稍早在第一届开发者大会上宣布客制化ChatGPT、GPT-4 Turbo等服务后，昨（9）日发表了资料合作伙伴方案（OpenAI Data Partnerships），除了帮企业整理或数位化资料，同时取得网路上找不到的开源与私有资料集来训练其AI模型。

要训练出有用且安全的AI，需要其资料集能涵括多种主题、产业、文化及语言，因此OpenAI之前曾和多个组织合作，以将其资料纳入其训练资料集，包括冰岛政府及一家软体业者提供冰岛语资料，法律非营利组织自由法律专案（Free Law Project）则提供大量法律文件。OpenAI指出，资料合作伙伴方案的目的在将企业组织的资料加入OpenAI的资料集，以便其模型能产出更正确、符合其产业或文化需求的回应。

OpenAI需要不易在公开网际网路上取得的，且能反映人类社会的大量资料。该公司能处理多种模态的资料，包括文字、图片、影片及声音，他们对能表达人类意图的资料尤其感兴趣，像是很长的文字或对话，而非不连续的片段，且不论文字、主题或格式都欢迎。

OpenAI强调，除了取得合作伙伴资料，他们也会用其自行开发的AI科技，协助企业合作伙伴数位化及结构化资料资产。例如他们有光学字元辨识（optical character recognition，OCR）技术可将PDF数位化，或使用自动语音辨识将口语资料录写下来。如果资料需要清洗，像是自动产生的符号或转录错误，OpenAI也能协助处理。OpenAI谢绝包含敏感或个人资料，或是非企业自有的第三方资料，但如果企业资料中包含这些元素，OpenAI也能帮忙去除。

以资料来源区分，OpenAI透过合作伙伴取得开源资料储存库，以及组织自有的资料集。OpenAI计划利用前者训练开源模型。利用组织自有资料集，他们将训练自己的基础AI模型，或是微调及客制化模型。如果合作组织希望保有资料，又希望OpenAI模型能更了解其领域，甚至合作组织自己想开发模型，OpenAI表示会提供合作伙伴属意的安全防护，以及资料控制权，有兴趣的企业组织可以填写表格以加入合作计划。

这项合作除了帮助OpenAI取得更多元资料训练其GPT、DALL-E等模型，以提升生成结果的品质，也能避免侵害版权或隐私的争议。OpenAI过去利用爬虫技术在网际网路上撷取文字及影音资料，已引来作家及出版商的控诉官司。

OpenAI启动合作伙伴计划，以扩大取得模型训练资料集