【本土LLM:国科会TAIDE】打造台版LLM供企业和公部门免费使用,还要开源繁中资料集

国科会TAIDE计划负责人李育杰指出,这次计划不仅提供公部门和企业签约免费使用TAIDE模型,还会陆续释出高品质的繁中训练资料集,来推动台湾LLM发展。

「台湾也要有自己的ChatGPT!」这是国科会主委吴政忠在今年2月新春记者会上揭露的重磅消息。

现在,10个月过去了,国科会打造的台版ChatGPT不只有70亿参数模型的初步成果,也开始进入公部门应用讨论阶段,更预计明年初释出130亿参数版本供企业和公部门免费使用,并展开700亿参数的模型训练。这套模型名为可信任AI对话引擎(简称TAIDE),以繁体中文资料训练而成,主打以台湾文化为基底,具备台湾特有用语、价值观和文化知识,能回答在地使用者问题。

国科会TAIDE团队,如何发展台版大型语言模型(LLM)?

3阶段打造本土化基础模型

他们采成本高、步骤最完整的方法来打造TAIDE。有别于从无到有自行开发一套模型,团队以开源LLM为基础,利用自行建置的繁中语料,来对LLM进行连续预训练(Continual pretraining)、微调和人类回馈强化学习(RLHF)等3阶段优化,完成品即是TAIDE模型。

第一阶段的连续预训练,是要用大量繁中资料,来让模型学习基础知识。更贴切的形容是,让模型学会文字接龙,比如「台」后有70%机率接「湾」、10%机率接「北」、4%机率接「中」等,让模型「从训练资料中,了解字与字之间的条件机率分布,」李育杰说。

为尽可能建置足够量的训练资料集,TAIDE团队收集了新闻、政府公开资讯和研究资讯、繁中维基百科和学术论文等10种资料,制作成繁中语料集,来训练模型。由于这阶段使用的资料量最多,通常是模型参数量的20倍,例如70亿参数,需要多达140亿个训练Token。因此最耗费运算资源,训练时间最长,若无建构良好的高速平行运算环境,可能耗费数月之久,难以符合现实要求。

再来是微调(Fine-tune)阶段,也就是用问答组资料,来让模型学习特定任务,比如翻译。微调作法又可细分为2种,一是全参数微调,较耗费运算资源,但模型学习成效较好。另一种是参数高效能微调(PEFT),也就是采用LoRA、P-Tuning等常见压缩技术,只对模型部分参数微调,以较省运算资源的方式,来试图达到全参数微调的效果。

在这个阶段,TAIDE团队收集了42万笔资料,包括ChatGPT问答组、繁中翻译的rm-static资料集、新闻摘要等,采较吃力的全参数微调方式,来让模型学习特定任务。最后一阶段是RLHF,也就是以人工标注模型回答,再以这个回馈来改善模型,如用语更符合台湾文化和知识。这期间,TAIDE团队也找来专攻自然语言处理的师生团队协作开发。

李育杰指出,经这3阶段训练的TAIDE,可作为基础模型,来让公家机关或企业,以少量资料微调模型即可应用。使用者也可搭配自家资料库,以检索强化方式(RAG),来限制模型回答范围、降低幻觉,给出更精准的答案。

改以Llama 2为基础打造台版LLM

今年4月28日,TAIDE计划正式展开,团队首先尝试不同的开源模型,如BLOOM、第一代LLaMA等。他们发现,LLaMA中文表现最好,因此以它为基础,来进行预训练、微调和RLHF。

由于LLaMA只开放学术研究授权,TAIDE团队打算先优化LLaMA来供学术研究使用,日后再寻找其他商用授权的LLM,来发展台湾企业可用的基础模型。今年6月时,他们展示了TAIDE第一阶段成果,也就是以繁中资料优化的LLaMA 70亿参数版本,已能执行自动摘要、翻译、写信、写文章等4大任务,且用语符合台湾文化,表现也比未优化的LLaMA-7b、科大讯飞-7b和Bloom-3b-zh等模型要好。

7月下旬,Meta释出Llama 2,不只开放学术研究和商用授权,表现还比第一代好。于是,国科会团队改以Llama 2为基础,原本打算分别进行学术研究和商用的模型训练,现在可以同步发展,省下许多功夫。

他们从Llama 2 70亿参数版本开始进行预训练、微调和RLHF工作,打造为TAIDE 7B模型。接著也对130亿参数的Llama-2-13b-chat模型进行3阶段优化,包括以30亿个Token的繁中资料进行连续预训练、以42万笔资料进行微调和RLHF工作,打造出Taide-Llama-2-13b-Chat模型。

他们以17种任务来测试模型能力,如写作、摘要、翻译、写程式等,再以GPT-4比较TAIDE模型与其他模型的回答,并打分数。结果,Taide-LLaMA2-13B-Chat大胜第一阶段展示的TAIDE模型,但这个版本的模型还需更多资料进一步优化,才能正式开放使用。

10月进入公部门讨论,预计明年初上架13B模型

打造台版LLM很重要,但更重要的是如何落地。为此,国科会TAIDE团队设置使用者帐号、建立使用平台,并在10月和11月,陆续举办中央和地方公部门的应用工作坊,先让公部门尝鲜TAIDE 7B功能、发想可行专案。同时,「我们也开放业界申请,企业签订MOU就能免费使用TAIDE模型。」李育杰指出,这正是国科会构想TAIDE计划时的重要考量,政府出资建造模型,不只弥补国外LLM方案可能的不足,还要带来产业效益,供企业自行使用或优化服务。

随著国网中心在10月购入72片H100 GPU,接下来团队将用这个算力,来优化130亿参数的TAIDE模型,让它具备多轮对话能力,更能记住使用者先前的对话,让任务执行更有连贯性。

他们预计明年初释出TAIDE 130亿参数版本,同时展开700亿参数版本模型训练,预计明年4月完工。不过,由于TAIDE计划将于明年4月28日到期,「我们正在想办法长期维运,让TAIDE继续营运下去,」李育杰说。

另一方面,在发展TAIDE的过程中,还有一大挑战要解决。「我们的训练资料目前还不够!」李育杰坦言,撇除无版权的网路公开资料,团队还需要新闻和出版物等资料,才够建置完整的训练资料集。也因此,TAIDE团队正向新闻媒体、出版社等机构,一一取得授权,来制作训练模型的繁中语料。

为打造LLM而取得资料授权,是必须的吗?「我请教过创立CC授权机制的哈佛大学教授Lawrence Lessig,他表示,将资料用于连续预训练,属于合理使用范围,不需取得授权。」李育杰说明,预训练目的是要模型学会字与字之间的机率分布,理应不会发生抄袭问题。

但他与团队还是想取得授权,不只为了制作TAIDE训练资料集,还有一个更大的愿景:开源这些高品质繁中语料。

开源繁中资料集来提高国际参与

「TAIDE计划走到现在,更让我体认到,台湾需要庞大且高品质的繁中语料库!」李育杰深知,繁中资料集稀缺,难以带动本地LLM技术发展,但「有系统地收整资料、发展国家性的繁体中文语料库,不只对TAIDE模型训练有帮助,对未来的LLM研发,甚至是整体AI发展,都会有很大的影响。」

有了这些资料集,台湾也更有机会参与国际AI研究。他举例,如OpenAI、Google、Meta等科技巨头打造新一代LLM时,就能使用台湾开源的繁中语料。目前,TAIDE计划已陆续释出一些资料集,如字典、法规资料库、中央社中文新闻等,未来还会释出更多。李育杰坦言,建置繁中资料集犹如打造公共财,需要如数位典藏的国家性计划和经费来推动,但TAIDE计划是个起点,透过计划抛砖引玉、让更多人知道建置资料集的重要性,是推动台湾AI进展的重要一步。

 相关报导