【台湾主权AI关键推手:TAIDE模型铸造组顾问黄瀚萱】政府应以充足算力、开放资料协助主权模型发展

在TAIDE计划担任模型铸造组顾问的中研院资科所副研究员黄瀚萱表示,训练语言模型需要投入足够的算力资源,不断实验调整各种训练策略,才能从中试验出最佳模型。(图片来源/中研院)

「不只是使用繁中资料或台湾的用词,更重要的是连结台湾核心价值,这才是主权AI」,中研院资讯科学研究所副研究员黄瀚萱一语道出TAIDE计划目的在于打造符合台湾核心价值的主权语言模型。

2022年ChatGPT横空出世,在全球带动生成式AI风潮,连带大型语言模型也快速发展,科技巨头不断优化技术释出新的语言模型,一时间开源大型语言模型成为当红炸子鸡,大语言模型推陈出新,比参数规模、比效能、比推理能力。

在这波大型语言模型趋势中,除了科技公司积极发展大语言模型技术,还有国家以开源语言模型,结合自己语言资料训练在地的语言模型,以确保在新的AI技术发展下,国家建立数位主权,不致完全依赖国外。台湾也在2023年由国科会推动可信任AI对话引擎TAIDE计划,今年TAIDE计划迈入第三年,国网中心接下推动TAIDE计划接下来四年发展的重责大任,黄瀚萱加入TAIDE计划模型铸造团队。

模型更新脚步放慢,选择重要的开源模型释出新模型

然而发展TAIDE模型并不容易,黄瀚萱说明面临的挑战,TAIDE计划    是使用繁中资料,将国外开源的大语言模型供外界运用,补足开源语言模型对繁体中文资料训练的不足,但是近几年已有多个团队投入繁中语言模型开发,外界的选择性增加,不再只有TAIDE单一繁中语言模型

由于计划本身为官方色彩,为建立可信任的AI对话引擎,TAIDE搜集的资料都必需取得完整资料授权,搜集过程比较辛苦,难以像其他模型团队搜集大量资料,建立丰富广度的知识,能够回答各种问题。

黄瀚萱表示,未来TAIDE计划重新调整定位,不再以频繁释出更新模型为目标,会选择有重要特色的开源模型版本更新,例如今年2月释出的Llama 3.1 8B为基础TAIDE 8B,因为Llama 3.1可处理更长的资讯,因此团队释出的新版模型针对较长的输入问题进行优化,以加快正体中文的解码速度。

TAIDE也从发展基础模型,加强特定资料的训练,让模型能和公务机关合作,协助公务处理,例如公文补助写作,民众陈情回应、资讯汇整等等。

「未来会针对利基点来考虑释出新版TAIDE模型,而不是每次开源模型更新都会释出新版本,我们的算力资源没那么多,这么做等于分散资源」,黄瀚萱说。

他表示,模型推动策略上,除了寻找合作伙伴测试,也会以非官方方式释出,或是以其他方式让TAIDE模型发挥更大的实质影响力。

目前TAIDE模型下载次数已达到18万次,除了和特定学研单位合作建立示范应用,也和政府部门合作,针对公文推出专用版的G-TAIDE模型,同时也和学研单位合作,推动TAIDE在语言学习、教材、医疗卫教等等。

展现台湾在地的多元价值观

这两年不论是开源模型或是国内其他团队开发的模型,都已有不错的繁体中文处理能力,黄翰萱认为TAIDE模型要做的不只是繁中语言模型,而是发展符合台湾价值、文化及知识用语的语言模型。他以同性恋结婚为例,在中国是不允许的,但在台湾则是合法的,台湾对多元的尊重明显要优于中国。

今年横空出世引起外界注意的DeepSeek R1模型,该模型对于人权、国家主权,明显与台湾的价值观不同。「我们希望大家使用的语言模型,它的价值观接近台湾的多元包容,这是发展主权AI最重要的」。

要如何让TAIDE模型学习多元价值,特别是符合台湾主流意见的多元价值?

黄瀚萱表示,目前已搜集约1千多笔包含多元价值的资料集,包含许多和价值判断有关议题,去建立不同的回答方法,包含接近中国、西方色彩、台湾的主流观点,再由社科背景如外交、政治系的学生,这些对不同观点有敏感度的学生,请他们挑选适合台湾价值的回答,透过搜集具有争议性的题目,搭配接近中国、西方、台湾模型的答案,汇入至TAIDE模型,让模型学习不同的价值。

算力资源不足影响模型优化成果

不过,该计划面临匮乏的资源,以算力为例,最初利用国网中心台湾杉二号的算力协助模型开发,后来采购9台DGX H100主机,以72片GPU算力专用于TAIDE计划使用,这些专用算力后来被纳入国网中心的大型算力资源,TAIDE团队被迫必需和其他科研、AI计划共用算力资源。

黄翰萱表示,从专用算力到共享算力,TAIDE团队从原本专用的9台主机,可能只能分到3至5台,而反观OpenAI用于模型训练有10万张H100,Meta也有30万张B200训练Llama 6,而国内用于TAIDE模型的算力只有几十张,相较于国外算力有相当大的落差。

一般而言,模型在预训练及微调阶段需要较大的算力支持,团队在训练模型往往需要测试各种方法,通过不断的训练实验,找出最佳的训练策略,以DeepSeek模型为例,最终模型训练出来之前,DeepSeek团队可能已训练许十次或上百次。

「一个模型背后可能是数十或数百次的失败尝试,愈多的尝试机会,愈有可能找到好的模型」,黄翰萱表示,国外语言模型可能三个月就释出新版,TAIDE计划如果同样要在三个月释出新版本,在缺乏足够的算力资源下,每个版本可能只能试验两三次,很难从更多次试验中,经过不断优化找出最好的效果。

以70B参数规模的大型语言模型为例,使用当初9台专用主机进行测试,可能要训练一个月才能完成模型,在短时间内就要发表模型之下,很难有足够的时间进行多次实验,就会影响到模型的成果。

尽管政府正积极扩建算力,国网中心建置超级电脑,现在已建置16PF的算力,今年底还将增加100PF算力,在晶创台湾、大南方新矽谷两大计划下,2029年国内公共算力可望增加至480PF;黄瀚萱认为,TAIDE不仅要和其他科研计划共用算力,有许多团队都想要投入大型语言模型的研究,虽然总体算力增加,未来TAIDE可能能分配到的算力资源,仍然有限。

黄瀚萱表示,TAIDE计划若能获得更大的算力资源,就能缩短模型训练所花费的时间,或是同一时间训练不同优化策略的模型,降低模型训练的单位时间成本,同时也能提高模型品质。

建议修法降低资料授权难题

目前,数发部正在研拟资料创新利用发展条例草案,鼓励政府部门先释出非结构化的资料,也鼓励民间捐赠资料供AI训练,还准备建置主权AI训练语料库,来解决AI训练资料取得困难的课题。

黄翰萱表示,依TAIDE过去搜集资料的经验,向民间取得资料,大多需要付费才能取得资料授权,而且每年都需要重新谈授权,也有版权拥有者不愿意卖授权给AI研究,让资料用于语言模型训练,他建议,政府可从智财法修法著手,让资料可被用于AI。

在算力及资料有限之下,TAIDE团队研究如何从技术上著手,以较轻算力将国外开源的LLM「洗脑」为具有在地化文化、价值观的模型;另方面也试验以小资料训练模型,例如前面提到的1千多笔多元价值资料,透过强化学习方式,将开源模型「洗脑」为具有多元价值的模型。

「运用一两千笔的资料,结合强化学习技术,用比较少的资料让模型学得好,如此便不需要那么多的资料,训练那么久」,黄翰萱说,团队随时学习新的模型训练研究论文,像是知名人工智慧专家李飞飞先前发表的论文,该论文揭示如何以较小资源、成本训练专业化领域的语言模型的成果,目前开源模型在繁中语言能力已有不错的表现,在此基础上,TAIDE模型开始转向专用领域发展,例如借用政府机关的资料训练模型处理公文的能力,或是运用少量的多元价值资料,让模型学习台湾的多元价值观。