为降低AI模型取得繁体中文资料的难度,数发部研拟促进资料创新利用发展条例草案,希望先由政府开放结构及非结构化资料,如施政计划等,并鼓励民间捐赠资料;此外,也规画建立台湾主权AI训练语料库,供TAIDE等国内模型开发使用,并希望促成国外语言模型采用。(图片来源/数发部)
「每个国家都要有自己生产智慧的能力」,去年2月,Nvidia执行长黄仁勋在杜拜举行的全球政府高峰会上说,黄仁勋犹如传教士一般,向各国政府代表喊话应该积极投入发展主权AI,特别是运用自己的语言、文化资料来发展各国自己的大语言模型。
Nvidia将主权AI定义为一个国家利用自己的基础建设、资料、人才和商业网路来发展人工智慧的能力。
换言之,AI技术将在未来带动社会各方面创新,不能仅有科技业者掌握AI技术发展,国家也应该主动发展主权AI,以自身的语言资料、自有的算力基础建设、人力、产业发展自主可控的AI技术及应用。
目前有不少国家投入发展主权AI,例如新加坡政府以华语、英语、缅甸语、菲律宾语、高棉语、寮语、马来语等11种东南亚地区使用的语言资料,建置SEA-LION大型语言模型,日本、韩国也宣布投入经费,政府与民间合作建置大型算力资源,台湾在这波主权AI中没有缺席。
「每个国家都非常强调主权AI,因为不可能只靠几家大公司来服务全世界,所以一定要有主权AI,算力、资料、模型都有自主权,才是真正的主权AI」,国网中心主任张朝亮坚定地说。
台湾如何发展主权AI
主权AI如此重要,但台湾要发展什么样的主权AI?
数发部部长黄彦男在一场建构AI产业生态系的活动中表示,由于中文语料多为简体中文,繁体中文资料相对较少,国外开源大语言模型多采用简体中文资料训练,AI的价值判断倾向对岸,台湾发展主权AI希望以在地繁中资料建立本地的模型。
至于如何著手推动主权AI,国科会说明,建构主权AI的重点在维持符合我国主权、价值观,以及包含繁中资料在内的多元价值;国科会正积极推动我国主权性的AI技术发展,例如TAIDE,完备AI模型发展所需要的算力、资料、算法。对于训练资料和算力资源不足的问题,政府将完善训练及微调AI模型所需的资料、算法和算力生态系,以减少对外部不透明技术的依赖,降低潜在风险,确保AI模型的自主性、安全性与社会政治完整性。
国科会表示,我国发展主权AI的政策,来自行政院「智慧国家方案(2017年-2025年)」框架下,透过跨部会推动各面向重要数位政策,积极发展主权AI。在这个大框架下,近一步推动「台湾AI行动计划2.0」(2023到2026年),由各部会在技术、治理、基础环境、人才各方面著手推动我国AI发展。
然而在当时并没有明确说明主权AI要做什么,而是偏向制定产业政策,提升我国数位基础建设,AI应用和相关技术研发驱动台湾向智慧国家发展,直到ChatGPT兴起的生成式AI浪潮,进一步带动科技业者投入大型语言模型发展。
第一步先发展台湾文化及价值观的TAIDE模型
在大语言模型快速发展下,训练语言模型的语料大大影响生成式AI隐念的价值观点,国科会为巩固台湾的AI主权及价值观,在2023年开始推动可信任AI对话引擎TAIDE计划,希望以国际的开源大语言模型为基础,结合台湾的繁体中文资料,在当时尚未有繁中资料训练的LLM,抢先打造台湾在地特色的基础模型,并释出供外界使用。
作为台湾巩固主权AI的策略,国科会以2亿元经费推动TAIDE,集结国网中心、中研院、学校老师学生等专业人才组成团队,在当时缺乏授权繁中资料下,团队辛苦取得资料授权,模型开发初期使用台湾杉二号算力,后来采购9台DGX H100主机,以72片GPU的4.8PF算力,专用于TAIDE模型开发使用。
2024年该计划展现初步成果,发表基于Llama 2开源模型,搭配取得授权的文本资料打造的TAIDE-LX-7B模型,强调在中英翻译、写信、写文章、摘要等已有不错的表现。去年再释出基于Llama 3的TAIDE 8B模型,直到今年2月才释出基于Llama 3.1的8B模型。TAIDE模型释出,迄今下载已超过18万次,目前尚未看到实际应用的案例。
TAIDE从过去模型快速更新,到久久才更新模型, TAIDE模型发展策略出现新的调整。
目前担任TAIDE模型铸造组顾问的中研院资科所副研究员黄瀚萱直言,TAIDE从早期率先推出繁中在地化语言模型,过去两年国内已有多个繁中语言模型,例如联发科、台智云等团队释出繁中模型,加上现在国际开源模型在繁中资料的处理能力也有不错的表现,外界对繁中模型的选择性增加,未来TAIDE模型降低更新频率,选择具有重要特色的开源模型版本释出新模型,同时也会以多元价值资料训练模型,强调符合台湾在地多元价值的特色,以和其他繁中模型作区别。
尽管TAIDE计划推动至今进入第三年,国网中心今年开始承接TAIDE计划,为期四年,第一年经费为1.4亿元,但是TAIDE模型发展策略的调整,也反映TAIDE计划可用资源减少,特别是原先TAIDE模型使用的9台H100主机,从专用的算力资源被转为更大的算力资源,使得TAIDE计划需和其他科研计划共用算力,可使用的共用算力资源可能比原来的专用算力更少。
另一个TAIDE计划发展的挑战是取得繁中资料授权不易,由于缺乏繁体中文资料,难以搜集到大量的资料投入模型训练,因此TAIDE目前并没有释出更大参数规模的版本,参数量较大的13B、7B参数版本仅作为内部学研使用。
国科会指出,TAIDE模型释出之前需经过反复优化、参数调校,确保模型在隐私保护、可靠及准确性,经过测试及评估后才会释出新版本;未来TAIDE计划将持续搜集更多繁中资料,增加资料的多元性,同时扩展算力资源,以加速模型的训练,未来将朝多模态、推理能力发展。
TAIDE从早期偏重模型开发,未来重心将转向拓展应用,例如从通用的基础模型,以专业领域资料发展特定的应用,例如与政府机关合作,以公文资料强化公文辅助撰写能力的G-TAIDE,目前已与一些部会单位进行测试。另外,先前TAIDE与大学合作,开发教育学习、医疗方面的应用。日前国科会主委吴诚文指出,为使TAIDE模型发挥更大效益,将督促国网中心,今年底与产业界合作,开发运用TAIDE模型的应用App供民众使用。
5年扩建公共算力,目标提升30倍
政府推动主权AI,从使用在地繁中资料发展TAIDE基础模型开始,因模型训练需要大量算力,后来采购H100 GPU作为模型训练的专用算力,也反映出发展主权AI需要大量的自主算力作为基础建设。
目前各国推动主权AI,其中一项策略就是提升各国算力资源,以避免受到国外商业化算力服务的局限,以自主算力作为发展主权AI的基础建设,配合国家、本地产业的需要发展AI技术。
台湾也不落人后,积极扩大国内的算力资源,例如晶创台湾方案(2024到2033年),政府以10年投入3千亿元,运用台湾在半导体晶片制造与封测的优势,结合生成式AI等技术发展创新应用,奠定未来十年的科技竞争力。在这项计划中,国网中心在2024年底完成新一代超级电脑建置,命名为晶创主机Nano 5,该主机采用Nvidia H100 GPU,总算力达到16PFlops,以提升国内人工智慧模型训练及科学模拟运算效率。未来晶创台湾方案持续挹注经费下,预期将扩大算力至200PF。
根据去年11月全球500大超级电脑排名,统计各国超级电脑算力发展趋势,台湾的超级电脑合计总算力为103PF,在各国中排名第11名,落后于韩国的213PF、中国的319PF,以及日本的940PF。(图片来源/国科会)
另一项政府推动的大南方新矽谷方案,以南部地区建置半导体产业链,并将在台南沙仑地区发展AI产业生态,分别从扩建算力、引入人才、链结场域、扩展应用四个方面推动,大南方新矽谷也规画筹建AI超级电脑及云端资料中心,未来再增加280PF的算力。
在晶创台湾、大南方新矽谷两大方案推动下,国科会预期国网中心建置的公共算力资源,将从2024年晶创主机Nano 5的16PF,到2029年达到480PF,等于5年成长30倍的算力资源,如果再加上民间因应AI扩建的私部门算力资源,国科会预估,合计超过1,600PF,政府准备建立公私算力联盟,让算力资源发挥效益。
国网中心负责建置超级电脑来扩建政府算力,以公共算力为基础,今年也会建置一站式的生成式AI开发云端服务平台,由国网中心提供技术支援,协助新创、资服业者运用超级电脑的算力资源、开发工具、开源LLM模型,测试开发AI模型及应用。配合大南方新矽谷方案,国网中心准备在南科、沙仑两地建立云端资料中心,供超级电脑进驻,同时储存巨量资料、云端服务的基础。
建立台湾主权AI训练语料库
有鉴于TAIDE计划取得繁中资料取得授权并不容易,高品质的繁中开放资料获得不易,数发部为降低资料取得成本,研拟促进资料创新利用发展条例(草案),提交给行政院审议。
促进资料创新利用发展条例草案主要以非个资的资料为主,包括判别式AI训练需要的结构化资料,以及用于生成式AI训练的非结构化语意资料。数发部解释发展条例立法目的为鼓励公部门开放资料供AI研究,以及政府开放资料可以不收费,以及公务人员开放资料免责条件,政府机关可设立资料创新实验环境。
此外,数发部也规画建置台湾主权AI训练语料库,以高品质、繁中、台湾观点的语料供国内包括TAIDE模型开发使用,并希望被国外开源LLM模型采用。
建置台湾主权AI训练语料库的目的是降低国内外LLM取得训练资料的成本,因此免费提供资料,鼓励LLM使用来自台湾的训练资料,并且减少AI业者和内容拥有者间的著作权纠纷。
按照数发部的规画,主权AI训练语料库的资料来源,包括政府拥有著作权的非机密性文件,例如政府机关的施政计划、施政报告、研究报告、政府出版品,另一部分是民间的著作权内容,鼓励民间捐赠的散文、小说、论文、新诗、传记等等。
数发部指出,目前国外LLM大型语言模型在训练资料,因著作权等种种问题,缺乏台湾观点的资料,主要使用简体中文资料,因此训练出的模型缺乏台湾观点,建立台湾主权AI训练语料库,即是希望透过降低LLM使用台湾语料成本,不只台湾自主发展的LLM模型,借此降低台湾繁中资料取得成本,吸引国外大型语言模型采用。
扶植AI产业发展,促使AI落地各产业加速转型
各国发展主权AI,除了扩大算力基础建设,用于发展主权AI技术外,也以算力资源、资料开放、释出模型,来扶植AI产业发展,以及相关人才,我国也希望建立AI有利的发展环境,培养AI产业发展,让新创、资服业者开发AI应用,让AI深入各产业加速转型。
数发部数产署去年建立GPU算力池,以32片Nvidia H100及8片AMD MI300X,提供1.58PF算力资源,开放软体、新创业者申请免费使用,供业者开发验证AI技术。
数产署也计划和软体业者合作,透过举办Demo Day或需求媒合会,让软体或AI业者展示根据产业需求开发的AI工具服务,借由工具服务让中小型企业也能导入AI加速转型。
由于新创或软体业者可能缺乏资金的支持,数发部已和国发会合作,以100亿元为期10年,与民间创投业者联手共同投资具有潜力的AI业者,或是还未上市柜的数位经济领域公司。
在生成式AI引发各界关注,带动AI应用走入政府及民间产业、民众个人,政府也开始制定AI相关法规,因应公务机关使用生成式AI,国科会先提出公务机关使用生成式AI参考指引,作为公务机关使用生成式AI的指引,在今年,数发部进一步提出参考指引,辅导公务机关在公务及服务上运用AI。
2024年国科会参考其他国家及欧盟的AI相关立法,研拟我国的人工智慧基本法,去年公告研拟的人工智慧基本法草案,揭示永续发展、人类自主、隐私保护、资安与安全、透明可解释、公平不歧视及问责等7大基本原则,该草案送交行政院审议,近期传出将由数发部增加AI风险分类框架,从风险分类来管理AI的发展,行政院正在盘点各部会相关法规调整及配套措施。
日本、韩国也加速发展主权AI
不只台湾,同处亚洲地区邻近地理位置的日本及韩国,也各自提出国家AI战略,加速各自的主权AI发展。
以日本为例,日本政府今年2月通过AI法案,与欧盟AI Act相似,采取风险管理的框架,来引导民间企业发展AI往正向发展,避免带来的负面风险。
在扩建算力策略上,不同于台湾建置国家级超级电脑为主,日本政府出资补助业者采购GPU,补助KDDI、软银、Sakura等业者采购GPU提高算力资源,透过补助企业降低他们的资本支出,达到降低算力成本,希望以此促使业者提供GPU算力服务收费。
结合大型的GPU算力资源、降低企业的算力使用成本,带动日本业者发展LLM模型,例如软银旗下的SB Intuitions即于2024年先开发3,900亿亿参数规模的日语LLM,对外提供服务,未来开发1兆参数的LLM。
在资料方面,日本为促成AI的有利发展,日本文化厅发布「人工智慧著作权检核清单和指引」,明定不同身分的AI利害关系人,在AI开发前后如何避免著作权侵权风险,在成为AI大国的目标下,在著作权法赋予AI训练资料合法的重制,但也明确界定侵权的界线,在AI发展和资料的著作权保护间建立平衡点。
韩国政府立下成为AI前三大强国的目标,今年1月国会通过AI基本法,通过规范AI来建立外界的信赖基础,并提高国家AI竞争力。韩国也设立国家AI安全委员会,专门审议AI政策及风险规范,由科学技术情报通信部(MSIT)负责统设立AI政策中心,每三年制定AI基本计划。
尽管目前韩国在全球500大超级电脑排名上,国家算力排名前十名,但该国仍意识到算力资源不足,积极提高国家算力资源,该国政府计划于2030年建置国家级AI运算中心,在此之前,先由政府与民间企业合作,采购1万片GPU建置大型算力资源,逐年再增加GPU数量,2030年将算力提升至2EF以上。
韩国政府也将结合自有的GPU算力、资金打造韩国版LLM,并且加速韩国AI产业的发展。至于资料使用上,韩国政府宣示将放宽先前因隐私保护而限制的非结构化公共资料使用,并且提高高品质工业资料的可用性。
台湾、日本、韩国同处亚洲,各自建置国内大型算力、开放资料运用、发展在地语言模型,来推动国家主权AI,同时利用大型算力、资料治理及技术,引导国内AI产业发展,进而带动创新。
台日韩三国主权AI策略比一比
算力
台 湾 晶创台湾方案、大南方新矽谷两大方案,推动未来5年国家算力至480PF。
日 本 采取公私合作,由日本政府补助业者购买GPU扩大算力资源,借此降低算力服务成本,日本政府补助软银、KDDI、Sakura等建置GPU算力。2028年达到日本国内AI算力60EF(1EF=1,000PF)的目标。
韩 国 先由政府与民间合作建置1万片GPU,建置600PF算力。将于2030年完成国家级AI运算中心,GPU算力提升至2EF以上。
资料治理
台 湾 数发部正在研拟「促进资料创新利用发展条例(草案)」,鼓励政府机关带头开放资料,并鼓励民间捐赠资料。今年数发部还将建置台湾主权AI训练语料库。
日 本 2024年日本文化厅提出「人工智慧著作权检核清单和指引」,规定AI开发、提供、使用及一般人不同身分的资料著作权风险。在著作权法中赋予AI训练资料合法重制,以及可能侵害著作权的情形,维持AI训练及著作权保护两者间的平衡。
韩 国 韩国政府希望提高资料可用性、可访问性。放宽先前因隐私而受限制的非结构化公共数据的访问权限,并提高高品质工业制造数据的可用性。
主权模型
台 湾 国科会于2023年推动可信任AI对话引擎TAIDE计划,以开源模型为基础,结合繁中资料,打造具有台湾意识、本土价值观的基础模型,以供外界运用。近期释出基于Llama 3.1的8B模型。
日 本 日本政府补助软银等企业购买GPU,软银子公司SB Intuitions利用算力研发日语专用的LLM,先在2024年度内完成3,900亿参数的LLM,并研发1兆参数的LLM,提供相关服务。
韩 国 韩国政府将投入资金、GPU,并集结一支团队打造韩国的LLM。
配套法规
台 湾 国科会研拟人工智慧基本法,去年先预告草案,规定我国发展AI技术的隐私保护、问责等7项基本原则,数发部可能研拟风险分类,行政院仍在研拟中。
日 本 今年2月日本政府通过AI法案,促进人工智慧的开发和利用,并规定滥用之风险。
韩 国 2025年1月韩国国会通过AI基本法,号称欧盟AI法案后第二个推出AI法规的国家。透过规范AI建立信赖基础,并提高国家AI竞争力。设立国家AI安全委员会负责审议AI政策及风险规范事项,并由科学技术情报通信部(MSIT)负责设立AI政策中心,每三年制定AI基本计划。
产业发展
台 湾 1. 为加速产业的AI转型,数发部从算力、资金、资料等面向扶植新创及资服业者建立AI产业生态,再由AI产业化带动产业AI落地。
2. 民间也扩建算力资源,发展本土LLM,例如联发科、Project TAME、福尔摩沙大模型等等。
日 本 日本政府与OpenAI合作,OpenAI推出专为日语使用者设计的GPT-4 Turbo模型;日本企业开发语言模型,例如NTT开发小语言模型tsuzumi,Line Yahoo推出Japanese-large-lm模型。
韩 国 1. 韩国政府推动制造业的AI应用。2024年投入超过1,000亿韩元(约新台币23亿元),共200项AI自主制造专案,2030年将AI自主制造普及率从目前9%提升至30%以上,并使制造生产力提高20%以上。
2. 韩国大型企业如SK电信在2023年发表首个韩国LLM模型。
人才
台 湾 由教育部、数发部、国科会等跨部会合作,在学校教育、科学研究、产业领域培养需要的AI人才。
日 本 日本政府将和地方政府、私部门合作,确保和培训人力资源,并将制定政策促进AI教育。
韩 国 1. 建立AI人才资料库,以追踪国家AI研发计划人员就业流动状况,助制定AI人才政策,促进产学结合。
2. MSIT也利用大数据分析,来掌握科技人才需求,并追踪理工硕博士发展,建立12项国家战略技术领域人才地图,以强化追踪产学人才供需。
资料来源:iThome整理,2025年3月