【当心提示注入、敏感资讯泄漏、错误资讯等问题】已在真实世界发生的LLM资安风险

近年来大型语言模型爆红,带来新的机会,也带来风险与挑战,需要我们去注意,AI服务供应商也会不厌其烦,提醒使用者注意。例如,大家用热门的ChatGPT服务时,AI在一开始就会宣告:请勿分享敏感资讯、查核事实,此举就是希望用户必须认知到相关风险。

当生成式AI技术快速进入企业应用的同时,资安风险也伴随而来,在知名OWASP Top 10风险排名报告中,已列出并持续更新大型语言模型(LLM)应用的十大安全风险,不仅揭露应用的潜在威胁,也提醒生成式AI服务供应商,以及应用这些技术的企业与个人,应注意这方面的安全问题。

别以为这些只是假设在未来发生的情境,有些风险本身就是反映真实世界存在的安全事件。在我们近期报导的国内外资安新闻中,就有一些案例突显这些问题,并且提醒大家须保持警惕。

LLM在这一年半高速发展,相关资安风险的防范仍处于初期发展阶段,但生成式AI应用的趋势已不可挡,因此我们更需了解问题的样貌与特性,才能持续设法因应与正确使用这项创新技术。 

 实例1  台北捷运AI客服竟能提供程式码范例,超出应有用途

目前国内外有哪些显著的LLM风险事件?例如,5个月前(2024年11月),台湾就有一起企业LLM服务遭到使用者滥用的实例,被大家发现存在防护不周、违反原本安全使用限制的情形。

事情是这样的:有民众发现,北捷提供的AI智慧客服服务,竟能用于生成程式码范例,引发许多网友测试,导致资源遭滥用。

这其实就是名列LLM十大风险的「提示词注入」当中的一种情境,使用者透过特定输入,诱使AI客服产生超出预期范围的回应,代表系统可能未有效限制模型的回应范围,导致被滥用。

具体而言,这项AI智慧客服的服务,民众可以在「台北捷运Go」App,或是台湾捷运的官方网站,找到这项功能,目的是提供更好体验的便捷服务,帮助捷运资讯查询、通报,及失物协寻等。

针对上述状况,北捷当时表示:在收到通报后,已经要求厂商立即切断串接Azure Open AI功能,回归提供旅客常见问答题库的用途。

这也反映一个现象:随著LLM技术成熟,企业导入的AI客服,背后技术也随之升级,从过去规则式传统NLP的脚本机器人,只能回答固定问题,进化成生成式AI的应用,具备强大语言生成与上下文理解能力,带来更佳的互动体验,但同时也带来了全新的风险与挑战。

虽然此情形看似影响不大,但攻击者加以利用恐造成严重危害,不论是注入恶意的指令,诱导错误或偏见的输出,泄漏敏感资讯,执行未经授权行为。

 实例2  三星员工擅自将企业机敏资料上传公用AI服务

另一个实际案例,是「敏感资讯泄漏」类型的LLM风险。在2023年4月,ChatGPT刚刚窜红之际,当时传出三星员工为了工作之便,可能在不清楚使用规范下,迳自将公司内的半导体设备、程式码等相关资讯,输入并上传至ChatGPT处理,导致该公司的内部机密资料外泄。

这其实与过去员工将公司内部资料,上传到个人云端硬碟的状况有点类似。

而上述三星事件的关键在于,该员工想用公共生成式AI服务,却没想过这并非企业自建或企业用的生成式AI服务。

简单来说,公共生成式AI的服务,通常会将使用者输入的资料,用于改进其模型。这意味著,这些上传的资讯,可能会成为模型训练资料的一部分,进而在未来的AI输出将企业机密泄露出去,或者被其他使用者间接获取。

因此,从企业角度来看,为确保企业自有资料不外流,会考虑部署私有的LLM,或是与供应商签订具有更严格资料保护条款的企业版方案,禁止使用者输入资料被用来调校,以及改进模型。

在此同时,多国政府与企业陆续发布「生成式AI安全使用指引」,强调使用规范与资安意识培训的重要性,尔后,国际间亦有资安厂商推出相关解决方案,强调能防范外对内的攻击,或内对外的泄漏。

 实例3  未查证即采用AI给的错误资讯,律师与开发者误信添麻烦

「错误资讯」的LLM风险造成的问题更加令人不安,究其主要原因,是LLM存在AI幻觉(hallucination)问题。

例如,2023年5月,美国纽约州有一位律师替客户撰写案件的摘要,过程中,此人利用ChatGPT整理相关的有利判决,而经过另一方律师的查证之后,发现这些判决案例竟是ChatGPT虚构。

这显示出一个重要问题:使用者的行为将加剧这项风险的影响。因为使用者过度信任LLM,未验证回应的正确性。

再者,由于AI给出的错误资讯,我们也要当心会被攻击者利用,下面一例是针对开发人员而来。在2023年6月,当时大家开始理解AI存在幻觉,有安全风险管理厂商Vulcan研究人员以此假设,证明ChatGPT若能捏造出不存在的程式码库(套件),攻击者将可利用此情形,锁定开发人员来散布恶意套件。

据实证结果显示,以Node.js而言,在201个提问中,ChatGPT 3.5在四十多个答复中,竟捏造不存在的NPM套件;以Python而言,在227个提问中,有八十多个答复捏造不存在的pip套件。之后的概念验证中,也被发现真有使用者盲目信任模型建议,而下载与安装假套件。

实现Security for AI须多方协力

整体而言,LLM应用型态已扩大,不只公用的LLM,还有企业开发给内部使用的LLM,以及企业将LLM应用成为产品或服务的一部分,提供给客户使用。

因此,面对不同类型的LLM风险,这不只是生成式AI服务供应商的挑战,应用这些服务或自建LLM的企业组织,也需要重视与因应,即便一般使用者,同样应该要理解与建立正确使用观念。

为了因应新兴科技风险,多个产业已展开行动,像是推出专业领域的LLM,针对医疗的Med-Gemini就是一例,可减少幻觉、提升准确性;还有许多科技大厂与资安业者,正打造全新Security for AI的产品与功能,包括:防止提示注入、侦测幻觉、模型滥用、DoS、滥用API,以及防范敏感资讯外泄或输入,还有盘点企业内使用的AI应用程式、协助AI开发合规等,让不知如何自己应对的企业,能有相应解决方案。

另外,还有法规面的新规范,虽然这些发展持续进行,但在LLM应用潮流下,安全已成为我们无法回避的挑战。


 LLM连小学程度的数学问题都会答错? 

不只AI幻觉造成的错误资讯,大家也必须注意:LLM虽可理解语意来生成回应,但并非真的理解。

今年2月我们报导AI资安议题,奥义智慧科技创办人邱铭彰,曾向我们提到一个AI误答的实例。他说,近年AI资安圈有一道经典题目,突显LLM在知识与推理能力高速进步下,仍会答错简单的数学题。这个题目就是:「9.11与9.9谁比较大」。

当下我们对AI提出这个问题想验证是否真有此事,结果发现ChatGPT 4o mini真的给出9.11比9.9大的错误答案!这样的结果,没有相关常识的人恐信以为真,即便有常识的人也可能因一时心急,看AI给出看似正确的解释就误信。

相隔一个多月(3月底),我们再用同一道题目询问多个生成式AI模型的服务,AI答错比例还是很高:如Grok 3(beta)、ChatGPT 4o都答错,只有Gemini 2.0 Flash答对。

到了4月9日我们再次进行验证,这次改问「8.22与8.8谁比较大?」,令人稍感欣慰的是,ChatGPT 4o、Grok 3、Gemini 2.0 Flash都能答对,不过,ChatGPT 4o mini还是答错。

对于「9.11与9.9谁比较大」的问题,先前有很多LLM模型都无法正确回答,直到最近,答错情形终于变少。例如我们3月底测试时,发现Grok 3(beta)与ChatGPT 4o答错,只有Gemini 2.0 Flash答对;4月初再测试,这三种AI模型都回答正确。