【LLM关键基础建设:算力】因应大模型训练需求,国网中心算力明年大扩充

采用V100 GPU的台湾杉2号,运算效能可达9 PFLOPS。因应国科会TAIDE计划,今年10月扩充了72片H100 GPU,预估效能可增加4.8 PFLOPS。明年国网中心计划再扩充16 PFLOPS,来因应70B参数量LLM模型的预训练。(图片来源/国网中心)

即便不是从无到有、开发一套大型语言模型(LLM),以开源LLM为基础,用数百亿Token语料进行预训练、微调和人类回馈强化学习(RLHF)所优化出的繁中基础模型,也是极耗成本。光130亿参数模型,就得花上几个月才能完成预训练。

算力,是影响训练成败的一大关键。台湾现有算力,足够发展自己的LLM吗?

盘点台湾现有超级电脑算力

台湾目前的主要算力资源,集中于国家高速网路与计算中心3台超级电脑,包括台湾杉1、2、3号,总效能约20 PFLOPS。其中,台湾杉1号和3号以CPU为主,专为工程运算、大型模拟等任务设计,台湾杉2号则采V100 GPU,专为AI模型开发和推论而设计,运算效能可达9 PFLOPS。台湾杉2号虽有2,016片GPU,但是分开使用,半数由国网中心管理,供公部门和学研界使用,另一部分则由建置台湾杉2号的台智云营运,来处理业界需求。

这样的算力,能否满足繁中LLM发展需求?国网中心主任张朝亮指出,以Meta开源模型Llama 2为例,它有70亿参数(7B)、130亿参数(13B)和700亿参数(70B)版本,在标准条件下,进行7B、13B模型预训练和全参数微调,台湾杉2号都能应付。

所谓的标准条件是指,搭配预训练的资料量为模型参数的20倍,亦即国网中心台湾杉2号,不论是对7B模型进行预训练(搭配1,400亿个Token训练资料)还是对13B模型预训练(搭配2,400亿个Token资料量)的需求,都可以胜任。就算资料量多一些,台湾杉2号也能处理,只是所需时间长了点。

「但若是70B参数的模型预训练,国网中心算力可能就不太够了。」张朝亮解释,这是因为,Meta从无到有训练Llama 2时,需要上千甚至上万片A100 GPU,所需时间大约为6个月,而台湾杉2号采用相对低阶的V100 GPU,效能约为1:3。若以台湾杉2号进行70B模型预训练,可能得花上9个月至1年。再者,台湾杉2号还得支援其他AI专案,无法全力发展单一LLM专案。

如何提供够用的算力,正是国网中心协助国科会打造TAIDE模型时,所面临的挑战。

助国科会打造台湾自有LLM,平行运算是关键

回到今年上半年,国科会TAIDE计划在4月28日正式展开,国网中心也随即提供台湾杉2号算力,来协助发展台版LLM。当时,国科会团队采用Meta释出的第一代LLaMA模型,以自行收集的繁中资料集,来预训练和微调LLaMA 7B版本。

后来,7月19日,Meta释出第二代模型Llama 2,表现不只比第一代好,还开放研究和商用授权。于是,国科会团队跟进,改以Llama 2为基础,用繁中资料集对7B和13B版本模型进行预训练、微调和RLHF。目前,国科会已提供繁中优化的7B版本TAIDE模型,供企业和公部门签约使用,预计明年初提供13B版本模型,同时展开70B参数模型的优化工作。

国科会TAIDE模型能一步步顺利上架,一大关键是高效能运算,尤其是平行化运算。张朝亮是该领域专家,他专攻流体力学和高效能平行计算,不只在美国NASA从事研究工作34年,回台接任国网中心主任后,也亲自参与TAIDE模型的平行运算和性能调校工作。

他点出,平行运算并非新发明,在高效能运算领域中已发展数十年,是项成熟技术。他自己从事科学工程运算时,就时常运用,只是在AI运算领域,作法稍有不同。「平行运算的原理很简单,」张朝亮说明,好比一台电脑执行一项任务,需要10天才能完成,若同时使用10台电脑,一天就能完成。以此类推,一台超级电脑可想像为成千上万台电脑组成,执行复杂的运算任务时,可透过切分任务,来让多台电脑分摊、同时执行。

资料平行化和张量平行化是常见做法

其中一种常见且简单的平行运算方法,是从资料量下手的资料平行化。意思是,假设AI模型参数量不大,单片GPU就能执行训练,一台主机因有8片GPU,就可训练模型8次。这时,开发者可将训练资料分割,将每批不同的训练资料,分别交给各个GPU,同时进行运算,让模型不断修正参数。

当模型大到无法用单一GPU执行训练时,就需要另一种平行化方法来因应。因为模型参数量越大,就需要越多GPU支援,可能是一台主机,或数十、数百台或上千台主机。在这种情形下,每台主机只负责一部分的模型训练,而训练资料的分配和传输,就变得十分复杂,也会使模型训练过程变得冗长。

此时,就需要NVLink和讯息传输介面(MPI),来提高主机内和跨主机的资料交换效率。张朝亮指出,传统科学运算时常使用MPI,使用者得针对每一项平行化和资料传输一一写程式,但在AI领域,有不少现成工具可加速,比如深度学习框架PyTorch提供平行运算工具,将MPI和GPU平行化所需的NVLink等分段工作打包好,能根据需求拆解MPI和NVLink任务、自动执行,相较于科学运算,简单许多。这就是张量平行化方法。国网中心也在国科会TAIDE计划初期,建置了平行化工具,来让开发团队进行性能调校。

分阶段提升AI算力,还要引进量子电脑

不只是平行化运算加持,这次TAIDE计划,还进一步提高了台湾杉2号算力。今年10月,他们购置了9台主机、共72片H100 GPU,是台湾杉2号原搭载的V100 GPU第三代,预估效能可达4.8 PFLOPS。

国网中心也以4.8 PFLOPS为基准,预计明年再增加16 PFLOPS算力。这些算力升级,也能用来解决,原本台湾杉2号不好应付的70B模型预训练问题。至于国网中心的整体算力提升目标,则是要在5年内达到200至300 PFLOPS。

这次的LLM训练经验,也影响了张朝亮对下一代AI超级电脑的建置想法。他计划分年建置,透过每年购入新机器,来避免基础设施过时。虽然这么做,难以让超级电脑难在世界排名中名列前茅。

他也期望,下一代AI超级电脑不只要具备中大型LLM训练的能力,还要能支援不同类型的生成式AI发展,比如生化模拟、蛋白质合成,甚至是多模态分析,比如整合影像与文字分析,来发展下一代AI生医软体等。

不只如此,「我们目前规画引进量子电脑。」张朝亮点出,采用量子电脑是世界趋势,他在刚落幕的2023超级电脑大会中,就见到非常多量子电脑公司和新创,「台湾一定要及早切入这个领域,否则会落后。」

而国网中心的规画方向有2个,一是观察量子位元数量发展,以量子位元数多的量子电脑为优先选择,二是依照世界主流作法,将量子电脑与超级电脑整合,透过超级电脑将资料转换为适合量子运算的形式,交由量子电脑计算,再将计算结果交给超级电脑,转换为人类可读的资料。

国网中心将另外建置超级电脑来与量子电脑沟通,目前规画中的AI超级电脑,也将拨出一部分来执行这个转换工作。此外,国网中心也打算引进可模拟量子电脑的工具cuQuantum,来提高量子电脑模拟在GPU的运算效率。

鼓励企业、新创运用超算资源做大题目

「AI和算力,是接下来几年非常重要的国家发展指标。」张朝亮认为,台湾不只要发展高速运算的基础建设,还要鼓励企业和学研界挑战「大题目」。他观察,过去几年,台湾研究风气保守,「我们鼓励大家发表论文,但并没有鼓励大家提出解决大问题的机制。」他认为,ChatGPT之所以存在,是因为有勇于挑战大题目的文化DNA。

「我希望未来几年,能够改变这样的想法。」为鼓励专家挑战大题目、勇于使用大算力解决大问题,张朝亮分享个人观点,政府在编排研究补助专案时,也许可直接命题,提出如TAIDE这类需要超级电脑运算的大计划,来编排经费、鼓励专家投入研究。

不只要改变文化,张朝亮还点出,国网中心正拟定计划,要来鼓励中小企业、新创产业使用超级电脑。也就是说,在下一代AI超级电脑发展的几年,国网中心要推动专案,针对出众的提案,提供「非常优惠的价格,甚至免费,来让提案企业和新创使用上百PFLOPS效能的超级电脑,」他说。

 相关报导