台湾积极布局「主权AI」,守护台湾数位主权、打造韧性国家

国安会咨询委员李育杰表示,主权AI是未来AI发展的重要趋势,目的在于各国都需要建立各自的AI基础设施,以便在掌握经济潜力的同时,保护自身的文化。

图片来源: 

台湾资安大会提供

2022年底,ChatGPT的横空出世,仿佛在平静的科技湖面投下一颗颗震动弹,迅速在全球掀起一股生成式AI的热潮。这项技术不仅展现了惊人的创造力与多元应用潜力,也让各国政府体认到背后所蕴藏的经济发展与国家安全双重含义。

正因如此,一个新兴的概念——「主权AI」(Sovereign AI)——正浮出水面,引发全球关注,成为当前国际间科技发展与国家战略布局的重要关键字。

国家安全会议咨询委员,也是中央研究院资讯科技创新研究中心研究员李育杰表示,各国已逐步认识到生成式人工智慧(Gen AI)的双重用途,既能推动经济成长,也可能带来国家安全风险为此,越来越多国家的积极规画,建立属于自己的人工智慧基础设施、研发能力和产业生态,以提升国家竞争力,并维持未来这些国家致力于发展其具备永续性的「主权AI」。

他也说,「主权AI」这个词汇在2024年2月以前,对于许多国际资安或AI专家而言还是相当陌生。究竟什么是主权AI?为何台湾在此刻将其提升到国家战略层次?

李育杰引述辉达(NVIDIA)执行长黄仁勋在2024年2月14日演讲,强调每个国家都需要建立自己的人工智慧基础设施,以便在掌握经济潜力的同时,保护自身的文化。「这番说词,无疑为全球积极发展本土人工智慧的趋势,提供了强而有力的佐证。」他说。

在这股全球性的主权AI浪潮中,台湾自然不落人后、迎头赶上,面对如雨后春笋般坚强的大型语言模型,台湾也积极展开行动,期望建立属于自己的AI能量,打造可信任AI对话引擎TAIDE。

李育杰表示,赖清德总统自2024年5月20日就任一个月后,总统府便设立「全社会防卫韧性委员会」,聚焦提升国家在关键基础设施、能源、通讯、交通、金融等各领域的韧性。在这些领域中,网路空间(Cyber space)的活动扮演著至关重要的角色。正因如此,他认为,在网路安全领域探讨「主权AI」的议题,更能彰显其时代意义。

台湾积极催生台版「主权AI」

尽管生成式AI(Gen AI)在诸如即时翻译等方面,展现出巨大的应用潜力,但其背后潜藏的风险在初期并未受到足够重视。李育杰指出,「主权AI」核心理念在于:一个国家应当均衡发展自身拥有的、真实可信的AI基础设施,从而维护国家核心竞争力。这需要大量的投入,因此,在全球发展生成式AI的同时,保有自主发展能力至关重要。

自2022年11月30日ChatGPT问世以来,生成式AI以前所未有的速度改变了人们的生活。相较之下,尽管早在2016年就有学者预见AI将带来深远的变革,但当时AI的实际应用并未对大众生活产生显著影响。

但随著中国软体如TikTok(抖音)和小红书在台湾影响力的日益扩大,也加剧台湾发展自主AI解决方案的紧迫性,李育杰强调,这不仅关乎国家主权,更涉及国家心理层面的安全。

李育杰坦言,令人惭愧的是,在ChatGPT问世之前,台湾学界对于生成式AI的投入相对不足。从2019年开始的大语言模型发展历程来看,包括华为、百度、阿里巴巴、Google等国际巨头都已积极参与,其中却没有任何台湾企业或研究机构的身影。细究其原因在于,台湾过去缺乏能够支持国家级大语言模型开发的投资方案。

他表示,为了快速建立属于台湾的ChatGPT,研究团队曾向ChatGPT本身寻求建议。ChatGPT给出的步骤包括:大量收集台湾语料库(来自网路、书籍、新闻、博客来等)、整理语言资料、利用深度学习技术进行训练、评估模型回答台湾相关问题的准确性,并透过带有人类回馈的强化学习进行微调以提高性能。

然而,ChatGPT也指出,即使台湾成功训练出自己的模型,其能力也很难与OpenAI训练的ChatGPT相媲美。这是因为OpenAI的模型经过了更大量的训练,拥有更复杂的模型架构和更广泛的知识与能力。尽管如此,ChatGPT也提到,台湾训练的模型仍然可以在特定领域提供有价值的讯息,解决特定的问题。

李育杰也分享早期使用ChatGPT的体验,例如模型会输出简体中文,并且在被要求使用繁体中文后,道歉讯息仍然以简体中文呈现,这反映当时的模型对于简体和繁体中文的区分能力不足。正因如此,在2023年农历年后,李育杰就与当时的国科会主委吴政忠沟通,提出台湾发展自然语言模型的重要性。

李育杰表示,台湾政府规画发展自主的AI基础,目标是建立像ChatGPT这样的大型语言模型,让台湾的企业、银行、医院等机构能够安心使用AI功能,而不必担心受到台湾政治情势变化的影响。

李育杰强调,如果不能尽快建立自主可信赖的大语言模型,台湾将面临严重的国家安全问题。他再次提及TikTok的例子,因为在言论自由的框架下,台湾目前还没有找到有效解决抖音影响力问题的方法;而大型语言模型的普及,将会带来更深层次的挑战。

他忧心表示,当人们习惯向这类模型询问各种疑问,如果大家都使用中国开发的「文心一言」等中文模型,中国将有可能掌握台湾民众的思想动态,甚至提供引导性的资讯,这无疑将构成国家安全威胁。

发展主权AI的必要性

李育杰列举多个必须发展主权AI的理由。首先,避免机密外泄:不能将所有问题都询问奠基在公有云服务的AI,因为这可能会泄露个人或机构的秘密资讯。例如,韩国三星的工程师使用ChatGPT导致国防和商业机密外泄的事件,就是警惕。

其次,克服数据偏见: OpenAI等国际AI模型主要依赖网路爬虫收集全球资料,台湾的数据量相较于中国等大型经济体必然处于劣势,即使OpenAI公平地搜集中文资料,模型也容易偏向中国的语料,导致输出结果不符合台湾的价值观和标准。

第三,建立可信赖的对话引擎:台湾需要能够产出符合台湾价值观、标准和法律的回应的AI模型,同时能够保护使用者的商业机密和客户资料。

第四,培养本土人才:台湾缺乏处理大型生成式AI模型的经验和人才,需要透过国家级的计划,让学界和有兴趣的研究者能够接触到相关技术。

第五,满足本土需求:透过自主研发,可以更好地满足台湾在特定领域的AI需求,并提升本土AI技术的水平。

第六,回馈国际社群:如果发展成功,台湾的模型甚至有可能将其独特的专业知识回馈Meta、OpenAI、Google等国际AI巨头。李育杰特别提到DeepSeek的MOE(Mixture of Experts)技术,他认为,未来大型对话模型如果能包含台湾的专家模型,将具有重要意义。

另外,李育杰以一个具体的例子来说明「主权AI」的重要性。他引用世界经济论坛(WEF)的报告,总结实现「主权AI」的六大战略支柱,包括:数位基础设施;劳动力发展;研究、开发与创新;监理与伦理道德架构;刺激AI产业发展;国际合作。

李育杰表示,这六大战略支柱为台湾发展人工智慧,提供了清晰的发展方向和行动指南,除了经济发展,他引述WEF世界经济论坛的观点指出,主权AI本质上是为了透过战略性运用人工智慧,强化国家保护与推动自身利益的能力。

例如,人工智慧在军事领域的应用已经日益增长,未来势必将持续加速发展;同时,人工智慧与资安的交叉领域,也正成为全球与各国内部的优先要务。

打造台湾专属的大语言模型TAIDE

李育杰表示,「资安即国安」,四月份公开的《国家资通安全战略 2025》也特别提及「人工智慧应用与安全」将是未来重要的四个支柱之一。

在各方努力下,台湾自主研发的「可信任生成式AI发展先期计划TAIDE」(Trustworthy AI Dialogue Engine)取得显著进展。李育杰透露,TAIDE是基于Meta的Llama II模型进行深度开发。

他坦言,虽然Meta在2024年4月19日发布更先进的Llama III模型,但TAIDE团队从Llama II的基础模型开始,扎实地进行了持续预训练(Continuous Fine-tuning Pre-training)、持续微调(Continuous Fine-tuning)以及基于人类回馈的强化学习(Human Reinforcement Learning、Human Feedback)。因此,尽管Meta拥有庞大的GPU资源(24,000个GPU),TAIDE团队仅凭借72个H100 GPU,仍然在4月29日推出以Llama III为核心的TAIDE模型。

李育杰强调,TAIDE的发展模式是利用既有的Foundation Model再进行自主开发。模型发布后,台湾社群展现强大的活力,许多人自发制作了安装教学等资源,推广TAIDE的使用。

他表示,TAIDE团队的初衷,是希望提供一个能够在本地端使用的AI模型,让使用者不必将敏感资料传到OpenAI等外部服务。例如,高雄大学的曾瑞元教授及其团队正致力于将TAIDE模型压缩,使其能够在资源有限的环境,甚至在Android系统上运行,这对于需要在敏感环境中使用AI的场景至关重要。

大型语言模型在语言学习方面展现出巨大的潜力,李育杰展示了两本书作为例证,一本是韩国人利用ChatGPT作为韩语老师教授英文的翻译作品,另一本是台南大学李健兴教授利用ChatGPT和TAIDE开发的台语和客语学习工具「台英会虚拟机器人」,旨在帮助不同年龄层的人学习语言。他提到,这是他第一次看到AI能够串联祖孙三代进行语言学习。

进一步思考主权AI的范畴,李育杰认为,不应仅限于大型语言模型,社群媒体平台及其言论审查机制也应纳入考量。他引述世界经济论坛的观点,强调数位基础建设对于非洲等地区发展主权AI的重要性,也提到人才培育、研发创新、法规制定,以及国际合作等关键要素。他并希望未来能利用AI,进行更多领域的创新应用。

使用哪一款AI与国家安全息息相关

谈及AI在国家安全领域的应用,李育杰表示,各界已普遍认识到AI在发展资安工具和国防军事用途武器方面的潜力。国外已有许多成功案例,利用AI提升国防能力,例如发展无人机和水下无人载具等。他也鼓励台湾优秀的AI人才,可以将国防相关应用纳入其研究发展或新创事业的方向,利用AI在资安和国防防御领域保护国家安全。

李育杰指出,台湾花费近一年的时间完成了《国家资通安全战略 2025》,其中,四个主要主题(也是四大支柱),包括:全社会防卫韧性、国土防卫与关键基础设施安全、供应链安全以及新兴科技(包括AI安全)。

他指出,「全社会防卫韧性」这个概念强调全民对资安的意识,透过人才培育和公私协力,共同提升国家的整体防御能力。

什么是「国土防卫与关键基础设施安全」?李育杰举例,当网路节点等基础设施遭受攻击可能导致国家陷入混乱甚至经济停摆的严重后果,并引用Netflix影集《零日风暴(Zero Day)》作为警示,他也转述美国前任国家安全顾问的观点表示,关键基础设施遭受严重侵犯,往往是战争的开端。

至于「供应链安全」则是未来需要高度重视的领域,李育表示,这也会纳入资安署的《第七期资通安全发展方案》,政府会透过「共同供应契约」采购各种软硬体服务,这样的作法对于机关采购有一定的方便性,但也存在潜在的安全风险,因为敌对势力可以轻易掌握政府使用的产品和服务。

对此,他认为,相关单位需要加强原始码检测和漏洞鉴定;供应商自身的资安,也是供应链安全的重要一环,像是去年9月发生黎巴嫩真主党使用的BB Call、遭到远端引爆的攻击事件,就是一个警示。

新兴科技安全包括AI安全在内,而如何将AI应用于网路安全,以及如何应对AI本身带来的安全问题,李育杰特别提醒,生成式AI的风险早在2019年就已存在。

他指出,当时GPT-2发布后,就有人质疑其潜在的危险性。《麻省理工科技评论》曾展示一段由人撰写和机器生成的文字,其中就已经展现出:AI可能被用于散播假讯息,引发社会动荡。

此外,国际地质学家也对某些AI模型表示担忧,例如发现某模型的核心条款与阿里巴巴推出的AI规定一致,这可能导致,一旦询问涉及中国的敏感问题时,就会出现偏颇的回答。

李育杰举例,当询问某模型关于中国陕西矿业公司在迦纳的采矿行动时,模型会以「不知道」回应,但询问OpenAI的ChatGPT,则能提供更详细的资讯,这显示:不同AI模型在处理敏感资讯时,存在明显差异。

从DeepSeek案例分析境外AI的潜在威胁

今年农历春节期间,中国杭州一家公司推出的AI模型「DeepSeek」引起广泛关注,甚至一度导致NVIDIA股价下跌。DeepSeek以其低成本和高性能著称,被认为可能改变AI训练的游戏规则。

然而,李育杰对DeepSeek表示高度担忧,因为政府或关键单位若使用DeepSeek,可能存在泄露敏感资讯的风险。所幸台湾政府有明确规定,禁止使用可能危害国家安全的资通安全相关产品,DeepSeek的AI就涵盖在其中。

他表示,根据中国的《国家情报法》,所有中国企业都有义务与政府分享资讯,若台湾政府机构与国防单位使用DeepSeek,可能会因为AI将机密资讯上传至中国,而产生严重的国安漏洞。

李育杰进一步指出,境外AI模型也可能被用于资讯操作,影响台湾舆论,损害台湾的民主机制。他说,大型语言模型是制造假新闻的利器,且DeepSeek必须遵守中国的审查机制,可能在台湾推动有利于中国的叙事,影响公共舆论,对台湾的民主体制造成严重伤害。

台湾在全球半导体与科技产业居于领先地位,李育杰也担心,先前曾发生韩国三星公司因为不慎使用AI,而造成公司企业营业秘密与产业核心技术外泄,因此,台湾业者若不慎使用DeepSeek,可能成为中国窃取台湾产业技术与机密的管道。

此外,DeepSeek可能被骇客用来传播恶意软体或执行网路攻击,甚至能迅速生成恶意程式,他举例,韩国便已发现DeepSeek会将使用者资料转传至抖音,这是一种极不寻常的行为,也带来对使用DeepSeek的隐忧。

他强调,如果缺乏严格的审查机制,境外AI模型可能会受到其本国法律和意识形态的影响,例如DeepSeek就必须遵守中国的社会主义核心价值观,并可能提供在其他国家被视为不合适的内容。

更令人担忧的是,李育杰认为,如果所有人都使用境外AI模型,长期下来,可能会潜移默化,接受其背后的价值观和知识体系,例如将维基百科的内容视为理所当然。

行政院发布生成式AI参考指引,确保公务机密与资讯安全

针对AI发展可能带来的伦理问题,行政院去年公布《行政院及所属机关(构)使用生成式AI参考指引》,强调AI会犯错、责任在人,以及使用AI时应考虑其适当性等原则。

参考指引中列出了十点规定,其中几项重点包括:生成式AI产出之资讯,须由业务承办人进行客观且专业的最终判断,不得取代其自主思维与创造力;为了确保机密资料的安全性,也规定行政机关「禁止使用生成式AI制作机密文书。」以及业务承办人不得向生成式AI提供涉及公务,和应保密、个人及未经机关同意公开的资讯,亦不得询问可能涉及机密业务或个人资料的问题。

但指引中也要求:行政机关应该要在封闭式的地端环境部署生成式AI模型,并在确认系统环境安全后,可依机密等级分级使用;各机关也不可完全信任生成式AI产出之资讯,不得以未经确认的内容,直接作为行政行为或公务决策的唯一依据。

指引中也明确表示:使用生成式AI作为辅助工具时,应适当揭露并应遵守资通安全、个人资料保护、著作权及相关资讯使用规定。该指引也强调,考量AI发展与资讯安全及国家安全息息相关,各机关在使用生成式AI时,应秉持负责任及可信赖的态度,并持续观察全球AI发展趋势与因应作为,滚动式修正参考指引。

为此,李育杰也推荐多明戈斯Pedro Domingos在2016年出版的《大演算》(The Master Algorithm)一书,而中国国家主席习近平在之前的新年贺词影片中,书架上就出现《大演算》一书。

李育杰再次强调,语言是最有用的沟通工具,它承载著知识系统、文化和价值观,并举例提到台湾和中国在线性代数的矩阵术语上的差异,说明知识系统的本土性至关重要。

最后,他再次引用黄仁勋的观点,强调每个国家都需要拥有自己的人工智慧基础设施,以掌握经济潜力并保护自身文化。而台湾正积极透过TAIDE计划,建立属于台湾自己的AI模型,积累属于自己的语料库,提升高速运算能力,培养AI领域的专业人才,并在演算法的研发上持续投入。

李育杰强调,台湾发展主权AI的关键要素:「主权AI =资料+算力+人才+演算法」,并指出「模型是一时的,资料是永久累积的,算力是必要的投资,人才要不断地培养」。

面对生成式AI带来的机遇与挑战,台湾政府与产学研界正携手合作,以谨慎而积极的态度,打造可信任、自主可控的AI生态系,为台湾的未来发展奠定坚实的基础,并希望在全球主权AI的竞赛中,努力走出自己的道路,确保国家安全,掌握发展的自主权。