OpenAI去年发表了新一代推理模型o1之后,让众人看到GAI开始媲美真人博士或软体开发高手般的解题能力,掀起了新一轮的大型语言模型竞赛。春节期间,以开放权重释出的DeepSeek R1模型,大幅降低了这一波推理模型竞赛的门槛,成了全球AI产业的热门焦点,开始浮现客制化推理模型的趋势。
台湾也有三位AI专家,在2月7日发起了一项台湾制造大型语言模型计划,专案代号自由钢普拉(FreedomGunpla R1),希望募资3千万元,预计在3月底释出第一版预览的推理模型。
这款引起全球AI圈热议的DeepSeek R1模型,在论文中揭露了多项媲美甚至超越OpenAI o1推理模型的能力,因为可以部署到本地端,来避免企业自己的机敏资料上传到网路,而引起AI圈的重视,不过, R1模型简体版用户协议中提到自己通过三项中国AI法规的备案,也让外界担心这款模型生成的内容偏重于对齐中国价值。
因此,台湾有三位不同AI领域的专家,发起了这项重新改造 DeepSeek R1,来打造对齐台湾价值的繁体中文版推理模型计划「 自由钢普拉」。这三位发起人,包括了AI PM助理新创MeetAndy AI办人薛良斌, Taiwan LLM 开发者林彦廷以及云端游戏软体开发供应商Ubitus的执行长郭荣昌。
薛良斌是台湾生成式 AI 年会主办人,也是知名售票平台KKTIX和MLOps新创InfuseAI的共同创办人,由他来负责募集这项模型改造计划的资源。
林彦廷则是具有中文大型语言模型训练经验的专家,他刚结束了在Meta的实习,参与了Meta训练Llama模型的过程。 林彦廷将负责 FreedomGunpla R1的模型训练工作。而最后一位郭荣昌则拥有大规模GPU丛集管理经验,旗下公司曾获得Nvidia破亿元,也拥有亚洲最大的GPU农场。 郭荣昌将负责算力架构和管理。
台湾目前也有几款繁中版大型语言模型,主要以 Meta释出的Llama模型为基础来客制训练,但薛良斌认为,Llama 3模型不够聪明,甚至用以太笨了」来形容,他指出,如果想要打造出自主能力的AI代理,使用媲美O1等级推理能力的模型是最低标准。
这项计划的技术重点包括了,将以DeepSeek R1为基础来进行改造,透过重新训练模型的方式,并以开源授权释出模型权重,也就是采取开放权重的策略释出,最后还会打造新的模型身份与品牌。薛良斌强调,这不只是一个技术专案,更是一项文化工程,因为这是一项多元价值观的对齐任务。
预计分三阶段来实现目标,第一阶段先对齐西方价值观,可能导致模型推理能力下滑, 薛良斌评估,很高机率达成这个里程碑。第二阶段再进一步让变笨的模型变得聪明,这部分则需要投入更多资源来验证。这项计划的终极目标是,不论使用者用繁体中文或是英文时,这款模型的表现可以比使用简体中文更好。
这项计划希望募资3千万元,将由财团法人开放文化基金会(OCF)处理募资,专款专用,透过这笔资金,希望至少可以训练两次模型。在时程上,初步预计2025年3月底前释出第一版预览模型,开始搜集早期测试者的意见回馈后快速迭代,再释出最终的版本。