【台湾资安大会直击】趋势科技:企业可以LLM应用架构设计安全边界检视风险,以LEARN方法论强化LLM应用安全

生成式AI带动大语言模型应用,然而企业使用大语言模型(LLM),不论是自行训练或是微调,可能产生资安风险,趋势科技架构师蔡凯翔建议,可从大型语言模型应用程式的发展生命周期,利用方法论去检视开发阶段中的安全边界,降低相关的资安风险。

「大语言模型的开发生命周期,就是一种机器学习和DevOps的综合体」,蔡凯翔说,趋势科技针对大语言模型的资安风险发布报告,建立一套检视LLM安全的方法论,他在今年台湾资安大会上对外分享如何实作大语言模型的资安实务。

蔡凯翔首先指出,大型语言模型应用程式的开发生命周期可以分为,「资料工程」、「预训练」、「基础模型选择」、「领域适配 」、「评估」、「应用开发与整合」、「部署与监控」,不同的开发阶段,需要选择不同的工具或方案开发模型。

以「资料工程」阶段为例,通常涵盖资料撷取、资料前处理、资料储存及管理,不论企业选择从无到有开发LLM模型,以资料进行预训练,但是自行开发投入的成本相当昂贵,因此多数企业会选择开源LLM模型作为基础模型,不论自行开发模型或使用开源模型,在后续「评估」或是「部署与监控」阶段,如果模型开发不如预期或是部署后使用者的回馈反应不佳,都可能重新回到「资料工程」。

至于「预训练」阶段,企业需要选择分词器(Tokenization),建立检查点(Checkpointing),以及在预训练过程中,产生不同训练版本模型的版本控制(Versioning models);「基础模型选择」阶段,企业根据自己的需求,选择使用开源模型或专用模型;「领域适配」阶段,企业运用提示工程、RAG或是微调等技术,让模型适用于特定的任务,以获得更好的表现。

「评估」阶段则使用工具或是以人工监方式,检验大语言模型的效能、可靠或安全性;「应用开发与整合」阶段为LLM应用开发框架,依需求选择不同的LLM应用开发框架,例如LangChain、Python的开源框架Haystack、LlamaIndex等,或是MCP协定;「部署与监控」阶段为部署和监控的方式,与开发应用程式相同,包括部署的模式、部署的策略、可视工具等。

蔡凯翔说,企业依照LLM开发生命周期各个阶段进行开发,对应涉及到LLM应用架构,这个架构内包含不同的区块,如DevSecOps区块、模型训练区块、资料来源区块、资料储存区块,还有LLM应用区块,其中因为AI Agent可能拉出LLM Agent子区块,「不同区块的安全边界当发生信任程度(Trustworthy)的变化,这些边界代表风险发生的地方」。

他表示,一般而言,资安会发生在信任程度发生变化的时候,例如系统外面的使用者发送的请求,或是使用第三方的套件,这些都是由外到内的过程中,信任程度发生变化,「从LLM应用架构来看,哪些部分会带来信任程度的改变,就是需要留意是否发生风险的地方」。

LLM的10类风险

这些安全边界可能出现的安全风险可分为10类,包括「提示注入风险」、「输出安全风险」、「训练风险」、「法遵及监管风险」、「代理及控制风险」、「资料曝露风险」、「幻觉风险」、「供应链风险」、「资源及可用性风险」、「模型安全风险」。

蔡凯翔以提示注入风险为例,让AI去做原本设计用途以外的事情,提示注入风险可以分为强制提示、反向心理学、误导三种攻击手法,还有直接、间接两种传输方式。例如在不抵触设计者的安全措施下,利用迂回的方式,让AI透露炸弹制作的过程,像是请AI撰写战争剧本为理由,要求AI具细糜遗说明演员如何在仓库中制作炸弹的场景,将恶意的意图用正常文本作包装,可能让AI透露原本不该揭露的资讯。

另一种手法是误导提示,称为Grandma Prompt(阿嬷提示),当AI具有类人类的特性,攻击者可以怀念故去的阿嬷每天说床边故事为理由,这些床边故事是关于如何制作枪支,要求AI模仿阿嬷说一个这样的床边故事。

Grandma Prompt的另一个恶意手法案例是,许多线上服务中常见会使用CAPTCHA,显示一个图片,该图片内容为扭取或是用色彩掩盖的一串英文字母或数字,借此来检验使用者是否为真的人类,而不是机器人,一般而言,可辨识视觉的AI通常基于安全设计无法回答CAPTCHA验证图片中的文字或数字串,攻击者利用Grandma Prompt手法,以已故阿嬷为情感诉求,将CAPTCHA的验证图片剪贴制作为一张阿嬷留下的纪念照片,诱导AI说出CAPTCHA隐藏的文字或数字串。

LLM的10类风险中,资料曝露风险可能是另一个企业关心的风险。

蔡凯翔表示,通常企业资料被LLM曝露来自三种原因,一是模型训练资料中含有企业的机敏资料,第二是在RAG的提示资料中使用企业的机敏资料,第三是使用者输入的资料中含有机敏资料。韩国就曾有新创业者开发AI聊天机器人,因训练使用韩国知名聊天软体Kakao Talk约10亿条用户真实对话作训练,使用者与AI聊天机器人互动时,意外揭露姓名、银行帐户等敏感资料,因违反韩国个资法被罚1亿韩元(约270万元台币)。

幻觉为另一个风险,AI产生错误虚构的回应资料,这类风险的发生通常是训练资料里没有使用者需要的答案,因此AI综合参考多个资料来源,自行产生虚构的答案,假设工程师要求AI推荐好用的开发工具套件,AI回复一个不存在的虚构工具套件,恶意人士制作同名的恶意程式,就可能诱骗不知情的工程师下载恶意程式。

结合安全边界及风险加强LLM应用安全

综合LLM的风险及前面提到的LLM应用架构安全边界,蔡凯翔表示,企业可以根据检视表检视在哪些安全边界应该注意可能产生的风险有哪些。趋势科技发布的大语言模型的安全白皮书,让企业可以查表的方式,对照安全边界及风险。

参加应用架构中的安全边界和可能产生的风险类别:

趋势也提出LEARN(Layer,Evaluate,Act,Reinforce,Nurture)的方法论,首先是对LLM应用的架构进行分层(Layer)辨识安全边界,接下来评估(Evaluate)不同的安全风险,排定高低顺序,再采取行动(Act),在边界采取缓解风险的措施,持续强化(Reinforce)监控完善安全措施,再依不断变化的威胁去培养(Nurture)符合法规及技术演变的安全意识文化。