iThome
一年了。
引发各行业日以继夜创新的ChatGPT,刚满周年。这一年来,我们看见许多变革,全球掀起了生成式AI的浪潮,这股浪潮也吹进台湾。在台湾,大型语言模型(LLM)不只走进各行各业,也开始出现自行打造的繁中版LLM,如联发科的BLOOM-zh、台智云的福尔摩沙基础模型和FFM-Llama 2、台大陈缊侬师生团队的Taiwan-LLM,政府更出资逾2亿元推动国科会TAIDE计划,来打造台版LLM,要供企业和公部门使用。这些成果,代表台湾在过去一年从0到1发展LLM的轨迹。
为何台湾必须有自己的LLM模型?国科会TAIDE计划负责人李育杰指出,有五大理由。
「文化知识」是第一个原因。由于现有开源LLM所用的中文训练资料,几乎以简中为主,繁中资料占比非常低,比如BLOOM的简中训练资料占16.2%、繁中只占0.05%,导致模型学习到的中文知识和回答用语,多以简中为主。
不只如「土豆」和「马铃薯」等生活用语差别,专业术语也有不同。李育杰举例:「线性代数中,矩阵的行与列,在中国称为列与行,和台湾用语相反。」若未事先定义,就会造成误解。就算以大量简中资料转换为繁中资料,用来训练模型,很可能给出不符国情的回答,例如答错了「国庆日日期」,正是先前中研院明清研究专用CKIP模型所引发的通用性争议。这些例子,再次突显台湾打造繁中LLM的必要性。
另一个非做不可的原因则是「资料安全」。李育杰说明,使用公开LLM服务,就会有机密泄漏风险。所以,行政院8月底才提出生成式AI参考指引,规范公部门对相关服务的使用。而TAIDE计划,就是要打造出安全、合规的模型,来供本地使用者落地使用。
再来是「资料偏误(Data Bias)」因素。这些大型模型的训练资料多来自公开网路资料,资料分布不均,科技巨头训练的LLM多以英文为主,容易产出偏误答案。最后两个非做不可的原因是人才培育,以及算力算法经验累积的考量。台湾LLM技术人才不多,自己发展LLM,可以由少数专家带头,来培养人才具备相关LLM技能,也能趁机累积超级电脑的平行运算经验,像是TAIDE计划团队就与国网中心实作出了专门支援大模型训练的平行运算工具,未来可供其他团队参考。
但是,全球生成式AI的马拉松竞赛,才刚鸣枪开跑,未来台湾想要与各国竞争,让AI成为台湾的竞争国力之一,从过去一年的台湾LLM发展经验中,可以看到还有许多挑战有待克服。
繁中语料不足是首要课题
台湾目前打造LLM的作法,并非从无到有开发一套模型,而是以开源LLM为基础,透过繁中资料集进行连续预训练、微调和人工回馈强化学习(RLHF)等步骤,优化出懂台湾文化和用语的LLM。这是全球AI圈常见的LLM建置方法。
不过,要发展繁中LLM,首先面临的挑战是繁中语料不足。这从主流开源模型的训练资料占比就可看出,例如1,760亿参数的BLOOM,繁体中文资料才占0.05%,比例非常低。而且,台湾目前发展的繁中版LLM,所使用的训练资料量为数十亿至300亿个Token,与一般训练资料量为模型参数的20倍相比,还有进步空间。
繁中语料不足,正是国科会TAIDE计划面临且想解决的挑战。TAIDE的目标是打造符合台湾文化和用语习惯的LLM,团队收集了新闻、政府公开资讯和研究资讯、繁中维基百科与学术论文等10种资料,来作为TAIDE模型训练资料集。同时,他们正与新闻媒体、出版社等机构一一取得授权,要将这些内容,制作为高品质的繁中语料集,并开源释出来,推动台湾LLM发展,甚至是整体AI发展。
面对训练资料量不足,除了爬虫网路公开资料、仰赖政府开源资料集,还有其他解法吗?深耕自然语言处理(NLP)数十年的中研院资讯所研究员古伦维认为,已开源的简中资料量庞大,并非完全不能用,而是要谨慎筛选,剔除不符合台湾文化的争议内容、保留共通知识,转为繁中后可用来扩充训练资料集。
运算成本是另一挑战
另一方面,打造LLM还有一大课题要面对:运算成本。以TAIDE计划为例,光是以70亿参数版本的Llama 2为基础,以繁中资料进行连续预训练,就得使用超级电脑台湾杉2号、耗费数月才完工。以台智云经验来说,他们以千亿参数的BLOOM为基础,使用了1.5TB、包含繁中在内的46种人类语言和13种程式语言训练资料,也是花费好几个月,才以台湾杉2号训练完成。
这其中,还得靠平行运算技术。比如,台智云自行摸索3种平行化方法,如资料平行化、工作流程平行化和张量平行化,从中找出最佳切割组合,来让每张GPU发挥最佳效能,提高训练效率。他们也因此实现最高调度840片GPU、同时进行平行化运算,完成福尔摩沙大模型的预训练。而国网中心团队在协助TAIDE计划初期,也建置了张量平行化工具,优化超级电脑主机内和主机间的资料传输效率,来加速训练过程。
不过,对一般企业而言,从预训练阶段开始打造繁中LLM,并不符合成本效益。常见的作法是从微调下手,也就是准备少量资料集,来针对特定任务优化模型。比如专门提供AI对话平台服务的叡扬资讯,就准备了800个Token资料来微调LLM,来尝试发展内部员工专用的Chatbot。
但,微调也分为全参数微调和参数高效能微调(PEFT)两种,前者是对模型的所有参数来微调,成效较好,也最耗费运算资源。后者则是微调部分参数,通常为模型5%的参数量,来试图达到全参数微调效果,其运算成本较低,但成效未必理想。对资源有限的一般企业来说,几乎只能采取PEFT方法,来增强模型表现。
得克服模型灾难性遗忘,更需建立繁中测试基准
除了算力,打造LLM基础模型还有技术问题要注意,其一是灾难性遗忘,也就是模型学习新资讯时,忘记已经习得的知识。
常见的解方有训练资料分布多元化,比如台智云在打造福尔摩沙大模型和繁中优化的模型FFM-Llama 2时,将训练资料平均分配,确保每一批训练资料都涵盖不同领域的资料,并混合一部分前批的训练资料,来让模型均衡学习。
这个概念,就像是学生每周学习不同学科,如数学、语文、历史、地理,而非第一个月只学数学、第二个月只学历史,如此考试时,一定会忘记先前学习过的知识。台智云后来测试模型,验证了这种方法,可有效降低灾难性遗忘,还能保有模型既有的优点。
不只如此,在台湾发展繁中LLM的这一年中,还有不少专家意识到,台湾缺乏繁中的基准测试(Benchmark)。古伦维指出,LLM完成预训练后,通常需要基准测试,来衡量模型的学习成效。比如常见的200种任务测试,其中就有用来衡量自然语言处理能力的GLUE、SuperGLUE等主流基准测试,来评估模型的阅读理解、翻译、情感分析等能力。但这些基准测试,并非为繁中模型设计。
她认为,应该要建置专属基准测试,才能衡量模型的繁中任务处理能力。这也是叡扬资讯创新研发中心副总经理林县城提出的看法,透过有效的繁中基准测试,才有利于后续应用。
此外,古伦维还点出另一个台湾发展LLM可思考的课题,也就是应用生态系。因为,LLM要发挥效益、成为好用工具,不单只是模型本身够好,还需要充足的平台资源和API生态,比如微调工具,来协助使用者客制化,或是API能串接多种App、与不同系统沟通。
这一年来,台湾LLM发展顺利跨出从0到1的第一步,虽遭遇发展中必经的挑战,如缺乏繁中语料、运算成本高、需建置繁中基准测试等配套措施,却也因此开始发展解决对策,像是由国家建置高品质繁中资料集,预计开源释出来推动台湾AI发展。
国网中心也因TAIDE计划而升级算力,继10月新添72片H100 GPU后,明年还要扩增16PFLOPS的效能算力,更开始规画建置下一代AI超级电脑。国网中心还拟订未来计划,要鼓励企业与新创提案、使用大算力做好题目,将以非常优惠的价格,甚至免费,来让提案出众的企业和新创,使用上百PFLOPS的AI超级电脑算力。
台湾自己打造LLM五大原因和四大挑战
非做不可五大原因:
1. 开源LLM的繁中文化知识不足
2. 资料安全考量
3. LLM训练资料偏误课题
4. AI人才培育需求
5. 平行运算经验和算力累积。
四大挑战:
1. 繁中语料不足和授权议题
2. 庞大算力和运算资源的不足
3. 克服模型灾难性遗忘
4. 缺乏繁中版基准测试
资料来源:iThome整理,2023年12月