【台湾资安大会直击】三款繁中LLM用于资安可行吗?奥义手把手实测分析

奥义智慧科技资料科学家陈枢元表示,能做到不含简体字、不含大陆用语且懂台湾本土文化的LLM非常少,因此用于特定领域时,应先微调再使用。

不论是服务业、金融、医疗还是零售,大型语言模型(LLM)应用几乎在各项领域遍地开花,资安也不例外。但,与大部分产业一样,在资安领域使用LLM,也有不少先天条件要满足,才能真正提高工作效率。

LLM用于资安领域的3大条件

奥义智慧科技资料科学家陈枢元在台湾资安大会上就举例,若将日常使用的ChatGPT用于资安领域,首先会有「隐私的隐忧。」尤其OpenAI在今年1月31日实施新隐私政策,表明会收集使用者内容等个人资讯,如提问中的地址,就有资讯泄漏的风险。

再来,「ChatGPT的安全机制设计,常拒绝回答资安问题!」陈枢元说明,比如提问「有什么专门用于散布恶意软体的服务出现吗?」,ChatGPT会回答「我很抱歉,但我不能提供任何有关散布恶意软体的信息…(略)」。这个限制,让资安人员难以透过ChatGPT取得所需讯息。

既然如此,开发者用Llama这类开源LLM,自行打造为资安助理可行吗?

「答案是不行。」因为,这类开源LLM的繁体中文训练极少,比如BLOOM所用的中文训练资料占比为16.2%,繁体中文资料只占0.05%,因此模型容易给出简体中文回答或用语,不符合台湾使用情境。这也意味著,开发者得先用繁体中文资料优化模型,让模型学会繁中用语,才适合产业应用。

综合起来,LLM要用于资安助理,得先兼顾隐私性、资安背景知识和台湾本土文化这3大条件才行。

选定3种繁中LLM,建置QA集和评估指标

于是,陈枢元看上3个已用繁中资料优化、具备台湾文化的LLM,并评估这些模型在资安领域的适用性。她强调,这个评估只限资安领域,规模就像是个小实验,并非学术研究,且评估模型为去年12月底的最新70亿参数(即7B)版本。

这3个本土化繁中LLM包括国科会TAIDE模型(b.11.0.0版)、奥义自建的CyCraftGPT模型(CyCraftGPT-V5版)以及台大资工系陈缊侬师生团队的Taiwan LLM(7B-v2.1版)。

其中,TAIDE由国科会领军打造,以Llama 2模型为基础,采用辞典、法规资料库、学术会议论文摘要等政府公开繁中资料优化而成。CyCraftGPT则是奥义专为台湾资安情境打造的模型,以Mistral-7B模型为基础,以繁中资安资料训练而成。至于Taiwan LLM也以Llama 2为基础,使用社群媒体、时事新闻和法律文件等繁中资料优化而成。

而评估流程,则由陈枢元建立资安问答集,让模型针对问答集的问题来回答,最后透过Flask框架来评分模型回答。值得注意的是,此处的Flask框架并非开发界常见的Python套件包,而是去年才推出的模型回答评分框架。

于是,为建立资安问答集,陈枢元先用GPT-4,将国外新闻网站The Register的资安类英文新闻翻译成繁体中文,并人工检查翻译品质。无误后,再输入提示,让GPT-4生成繁中资安QA资料集。在这个步骤中,陈枢元提示要求GPT-4扮演2个角色,首先是民众角色,要根据资安新闻提出问题,再由另一个专家角色,来根据新闻和民众提问回答问题。如此,就能产生一组问答,累积起来就组成一个问答集。当然,提示也要求GPT-4必须使用繁体中文回答,不得出现简中内容。

最后,陈枢元用这个方法产生了50笔问答资料,也因为量不多,她可以人工检验每笔资料,比如是否皆为繁中。她点出,用GPT-4产生资料集有2个好处一是效率高,不需人工干预、只要有新闻资料就能生成资料集,再来,也正因为使用新闻验证的资料,正确性也高。

除了资料集的准备,她也修改了评分专用的Flask框架,将原本只适用于英文内容评分的Flask,调整为可对繁体中文内容分析。

至于Flask如何运作,可把它想像为评审员,其心目中最理想的答案就是问答集中的答案,以此来对不同模型产出的回答评分。不只如此,Flask评分也要有评分指标与基准,陈枢元因此根据台湾资安领域特性,调整既有指标,设定出事实性、隐私性、执行力、无害性、简洁性和本土化等指标。

接著,Flask会根据这些指标,来对模型答案给出1至5分的评分和评语,来解释评分的原因。

繁中LLM的资安应用实测

在实测阶段,陈枢元用资料集的所有问题来评估这3款繁中LLM。她现场也以一组标准QA为例,来分享模型的回答表现。这个例子的标准问答是「组织如何保护K8s丛集,不被Siloscape这样的恶意软体攻破?」与「…(略)包括适当限制节点的权限、使用多因素验证和最新的security patch,并定期进行安全检查…(略)」。

首先,以CyCraftGPT来说,它的回答重点为使用安全工具,如CloudHealth Secure State提供的K8s清单和丛集建构图标、使用eBPF技术从节点收集讯号等。它的评分为简洁性3分、事实性4分、执行力3分、无害性和隐私性各5分。Flask说明评分,就事实性来说,回答中的工具和技术都是实际存在的,不过CyCraftGPT并未提到如何具体使用这些工具或技术的细节,因此少了1分。

以TAIDE而言,则给出冗长回答,且回答中包含许多难辨真假的英文简写,也会给出重复的答案,比如建议措施有「使用最新版本的K8s软体和所有相关元件」、「确保所有元件(包括K8s、容器、作业系统等)处于最新状态」等。Flask评分为简洁性3分、事实性1分、执行力1分、无害性1分、隐私性5分,其中事实性的分数说明点出,TAIDE提到一些不存在的工具和概念,如RunCIF、Kubeboost等。

至于Taiwan LLM也给出长篇答案,回答中的7项建议作法,仅有2项正确。Flask评分为简洁性2分、事实性1分、执行力1分、无害性和隐私性各5分,其事实性评分说明,模型给出的「Siloscape是一家开源安全公司」说法并不正确,应为恶意软体,且回答中的一些措施现实中并不存在,如处理器密集部分(PCP)技术。

3大繁中LLM用于资安的优劣势

经过各个QA测试,陈枢元总结这3大繁中LLM应用于资安的表现和优劣势。就6大指标表现来说,TAIDE的事实性分数为3者中最高,其次是CyCraftGPT和Taiwan LLM。不过,隐私性和无害性分数排名则倒过来,Taiwan LLM最高,CyCraft GPT以些微差距居次。执行力部分则由TAIDE领先,简洁性和本土性由CyCraft高分居冠。

她也以个别模型细说,首先,TAIDE语句顺畅、内容详细,并未使用简体字,但回答冗长,通常有10条条列式答案,有时会全英文回答,并有大陆用语出现(21/50),如信息、黑客、接口等。因此她认为,TAIDE适用于提供条列式、资安方面的详细解说。

至于CyCraftGPT,一样语句顺畅、没有简体字,少有大陆用语(3/50),内容简短明确,但也因此缺少证据佐证。陈枢元点出,CyCraftGPT这些特性适合提供语句式、资安领域的大纲与简介。

Taiwan LLM虽没出现简体字,但语句偶尔不通顺、有较多大陆用语(39/50)、回答冗长,且回答时偶尔重复一样的内容。陈枢元表示,该模型在资安领域的大陆用语很多,且容易答错,因此应用于资安领域,需斟酌三思。

她总结,能做到不含简体字、不含大陆用语且懂台湾本土文化的LLM非常少,因此用于特定领域时,应先微调再使用。而此次测试的3个繁中LLM各有所长,若要应用,得要找出符合情境需求的模型,才能发挥效果。文⊙王若朴