国网中心主任张朝亮认为,在AI技术的发展下,主权AI已是每个国家关注的重要议题,全世界很难只依靠几个大型科技公司提供服务,每个国家有自己的语言资料,包括资料、模型及算力三个方面。(摄影/洪政伟)
在政府推动主权AI的战略下,不论AI模型或大语言模型,都需要大量算力的支持,模型训练的过程中需要不断的调整策略,通过多次的试验找出较佳的训练效果,反复试验过程,需仰赖大量算力支持,国家建立主权AI的策略,不论是补助民间企业,或是国家主导建置,都希望先扩大本国的算力资源,如同种植农作之前,先培力土壤内的养分,让名为AI的作物可以在自家的土地成长,开花结果。
在台湾主权AI战略中,国研院国网中心扮演重要的角色,特别是在晶创台湾及大南方新矽谷两大方案,政府投入经费,由国网中心建置新一代超级电脑。
去年底国网中心完成新的GPU主机建置,采用H100 GPU,算力可达16PFlops,因经费来自晶创台湾方案,该主机被命名为晶创主机Nano5,目前仅先开放部分算力资源,预计今年6月可望正式上线,开放算力服务。未来5年在晶创台湾、大南方新矽谷两项方案推动下,国网中心积极建置新的超级电脑,2029年将推升我国公共算力至480PF。
国网中心主任张朝亮表示,在AI技术的发展下,主权AI已是每个国家关注的重要议题,全世界很难仅靠几家大型科技公司提供服务,「每个国家有自己的语言资料,主权AI涉及资料、模型及算力都要有自主权才是真正的主权AI」。
目前国际上已有科技业者开源大语言模型,且公有云提供GPU算力服务,并且有公共生成式AI服务供大家使用,台湾为什么要建立主权AI技术?
张朝亮解释,从资料面来看,各国都有自己文化语言,自己的语料,国际模型通常以全世界为主,很难关照在地的元素,因此需要各国以自己语言资料发展在地化的模型。
算力方面,尽管国际公有云业者建置超大型资料中心,提供快速就能使用的GPU算力服务,但是过度依赖国际公有云的服务,哪一天因某个特殊事件,国际公云不再提供服务给本地用户,资料、算力可能因此中断,因此算力也要有自主权;至于模型,资料与模型为一体两面,目前AI可分为机器学习AI及生成式AI,未来两者会逐渐融合,让机器人可处理不同的工作任务。
「国网中心身为政府资助的法人,我们的责任就是协助主权AI落实在台湾」,张朝亮说,除了协助将搜集到的合法资料储存于国网中心,还有建置台湾自己的算力,让不放心将资料存放在国外的政府机关或企业,可在本地保密环境下储存资料,这是国网中心必需做的事,由国网中心提供自主算力、资料储及在地化的语言模型。
承接TAIDE计划,今年将推出多模态模型
国科会为推动主权AI技术,2年前推动可信任AI对话引擎TAIDE计划,基于开源LLM模型,结合台湾在地的繁中资料,以发展出符合在地文化价值的LLM模型,TAIDE今年步入第三年,由国网中心承接TAIDE计划,张朝亮兼任计划主持人,将以超级电脑GPU算力为基础,支援TAIDE模型训练。
不过,尽管国网中心扩建算力,接下TADIE计划深化台湾在地文化、价值的语言模型开发重任,张朝亮直言,虽然现在国网中心已有模型开发团队,但是仍缺乏足够的人力,未来希望中研院、学界的人才能协助分摊模型训练的工作。
目前TAIDE模型释出的版本,是以90GB的资料进行训练,已释出为7B、8B参数规模版本,因为使用的资料都获得授权,可供商业使用。
国网中心承接TAIDE计划,为4年期计划(2025年到2028年),推动基础模型的更新、模型推理能力的发展,以及适用于手机或机器人的小语言模型发展,国网中心内部团队约22人,外部则有8人,在分工方面,中研院负责模型铸造,科政中心负责资料的搜集、品质,国网中心协助模型评估、建置云端服务,以及协助模型铸造及资料品质。
今年国网中心将建置的100PF算力,也会支援模型训练,但是将依整体科研及模型任务需要作分配,在必要及急迫时,提高模型使用算力的优先权。
目前已开发TAIDE多模态版本,正进行开发测试中,预计完成整个内部流程,今年内就会释出多模态版本。此外,国网中心也会加强推动模型应用,其中包括专为公务机关使用的G-TAIDE,针对公文、新闻稿、民众陈情、拟答等需求优化,目前已和国科会、教育部、行政院底下处室、劳动部等合作测试,未来将扩大与更多部会合作,以G-TAIDE作为示范,吸引更多公私协力的落地应用。不只是公部门的应用,还有与其他第三方合作,如学校教育、医疗等应用。
建置AI开发云端服务平台加速扶植国内AI发展
鉴于购买GPU成本昂贵,并非一般企业能负担的起,而主权AI的目的,不只是政府建置国家级AI模型,还包括鼓励民间发展AI应用,特别是国内企业占大多数的中小企业及新创,他们可能有想法,但缺乏GPU算力支持,国网中心扩建大型算力,以这些算力为基础,结合软体介面建置大语言模型开发服务平台,以让新创或资服业者能够使用平台快速开发。
张朝亮表示,使用超级电脑上的GPU资源,通常需要较深的专业技术,一般新创或资服业者可能不具备这些能力,由国网中心将这些专业技术建置为共享平台,例如提供不同硬体环境、语言环境的API,让新创、资服业者简省自行开发时程,可以快速呼叫API开发自己的应用。开发平台提供一站式服务,从前端到后端提供各种工具服务,包括开源模型、TAIDE等各种模型资源,让新创、资服业者不需到外部取得工具,就能在该平台上开发AI。
传统使用超级电脑上的资源,使用者需要较深的技术,而现今的趋势是走向云端服务,因此国网中心整合云端服务、平台化建置、HPC计算,整合为整套的服务提供给学研、中小企业、新创使用。
这个AI开发云端服务平台预计在近期发表,开始试营运,预计于今年10月正式上线,开放学研及新创使用,以目前晶创主机的30%资源用于辅助中小企业及新创开发AI,国网中心将开放征案,让外界可以运用这些资源。今年底将建置的100PF主机,预期明年正式上线,同样希望达成这样的目标。
张朝亮强调,建置公共算力的目标并不是要和民间建立的私有算力服务竞争,国网的目标是让缺乏资源的中小企业、新创,这些小型业者可能有想法,却无法使用得起算力资源,由公共算力资源扶植他们发展,先在国网中心提供服务平台进行开发测试,成功后改以私有算力服务去服务他们的客户。
张朝亮认为,国际公云业者的服务通常会建立全球一致的商业服务,例如国际公云业者会以商业化标准,提供最多人需要的工具服务,不会提供较少人使用的工具服务,国网中心基于主权AI发展,可配合台湾业者需求提供工具服务,例如本地新创业者需要,但不是主流使用到的工具服务,这是国网中心提供云端服务和民间业者不同之处。
国网中心建置云端服务,相当于发展台湾自己的主权云,本地企业如果担心使用国际公云服务,资料可能因此外流,就能使用国网中心建置的云端服务,张朝亮认为,不只是民间企业能用,包括高度机密性资料的政府机关、国防部门也能运用,类似主权云的概念。