随著大型语言模型(LLM)应用普及,负责任AI、AI安全性、AI可信度,成为企业要保护商誉及资讯安全,更须注重的议题。酷澎资安工程总监周彦儒说:「只要是风险之所在,就是验测之所在。反复验证LLM安全才能避免输出有害内容,建立信任。」
他观察,目前LLM安全验测主要方式是,用Excel档或其他资料集形式的大量测试问题,输入LLM,人工审查回应是合乎企业对模型的要求。不过,这种验证做法有4个常见挑战:成本过高、无法重现结果、人类标准不一,以及对抗式攻击的风险。
首先是成本过高。周彦儒解释,成本不只是金钱,更重要的是时间成本,以及能够验测的题目量。他估算,一个人进行提示词制作,输入LLM,取得回应,人工评估,每小时做20题已经算多,一整天下来,验测不到200题。要深入且全面安全验测,这个数量远远不够。
再来是结果无法重现。当验测人员疑似找到问题,就算输入相同提示词,LLM每次输出结果都不尽相同,无法重现模型问题,来锁定问题、深入研究。
人类标准不一意即,即使使用同样验测范例,不同人、情境、企业、领域、文化,对于公平性和道德的见解都会不同。当牵涉到没有标准答案的问答,问题会更加明显。
最后一项挑战来自对抗式攻击的风险,周彦儒指出,即便模型验测结果理想,只要有人使用带有恶意的参数微调或训练资料,有可能令模型产生截然不同的生成内容,使先前辛苦验测、调整模型前功尽弃。
LLM验测流程要融入最佳实践方法,自动化是大前提
周彦儒一一给出这4大挑战的解法。首先,面对成本过高问题,验测者应打造自动化验测机制,来大量重复执行验测。有了自动化验测机制,还能使其他挑战的解法变得可行。
例如,要解可重现性挑战,可使用蒙地卡罗模拟(Monte Carlo Simulation),自动对提示词作出些微变化,进行大量测试,来看出现不合格回应的机率高低,并评估风险是否可接受。「既然LLM是一种基于机率的模型,验证方法也该是一种机率性验证。」他说。
针对人类标准不一挑战,企业可以先制定统一判断基准,让验测机制一视同仁的自动化执行,避免人类判断的不稳定性。不只如此,周彦儒还建议加上多数决机制,让验测机制再次判断审查回应的结论是否合理,做为第二层保险。举例来说,可以让多个模型验测相同问答,当多数模型判断LLM回答合格,才真正合格。
因应对抗式攻击的方法,则是由验测人员掌握好对抗式攻击的TPP(技巧、战术、程序),并教导给自动化验测机制,使其能反复针对攻击方法来测试模型防御力。
酷澎综合前述前述4大挑战的应对概念,采取LLM-as-a-Judge做法,打造出一套用LLML验测其他LLM的自动化验测机制。
针对LLM验测四大挑战设计LLM-as-a-Judge机制
酷澎的LLM-as-a-Judge自动化测验机制,分为Planner、Tester、Evaluator三个元件。
Planner负责分析「模型可能如何出错」。做法是,透过对话,对受验测LLM做预测试,来了解模型特性,以及在不同应用情境上,会面临到何种威胁。有这些资料,才能决定设计实际验测题目的方向。
Tester则负责测试「模型有没有可能出错」,根据Planner提供的问题设计方向,生成实际验测问题,来确认受测LLM是否会出现Planner所设想的风险。这些问题,会根据输入输出是否符合预期,分为4类情境的问题。输入输出都符合预期,属于一般使用情境(Use case)。输入不符预期,输出符合预期,属于边缘案例或意外案例(Edge case)。例如,当客服机器人被用来当文书处理机器人,就属于Edge case问题。
输入符合预期,但输出不符合预期,则是幻觉(Hallucination)。输入输出都不符预期,则是攻击(Attack)。「防范攻击是最需要创意的,因为要想像,自己想不到的攻击方式,如何产生不预期的权限提升或回应。」
周彦儒建议,企业自己验测LLM时,也需要针对这4大类情境来设计题目,并充分应用不同情境所对应的验测技术。
Evaluator则负责判断「模型是否真的出错」,从模型回答Tester问题的结果,判断受测模型是否符合Planner预想的风险情况,并告诉测试人员,受测模型在哪些面向,存在何种问题。不只如此,Evaluator还需要回馈Planner和Tester,对受测模型的出题方向和题目设计,能如何优化。
追踪验测机制的重要KPI,来改善验测品质
酷澎也对这3个元件设置不同的KPI来追踪,以持续改善验测品质。
酷澎追踪Planner的KPI是,Planner生成问题集中,预想威胁与模型实际使用情境的对齐程度,以F1分数表示。周彦儒进一步说明,Planner功能表现良好与否,取决于题目设计方向是否符合实际模型功能与应用场景。举例来说,当一个模型功能只负责档案归类,根本没有RAG能力,更没有其他存取外部资料功能。就算拿个资外泄的题目测试,且模型有回应,也只能得出「会产生幻觉」的结论,但并没有真正个资外泄风险。
Tester的KPI则是受测模型被验证集攻击的ASR(攻击成功率)。透过比较受测模型和其他模型的ASR,酷澎可以比较出,受测模型经过Tester验测后,提升多少防御能力。从模型被攻击成功的情况分布中,还可以看到,Tester产生的题目,是深度还是广度上不足。周彦儒说,只有两者兼具,才能确保验测内容具足够代表性,能完整找出模型的风险。
Evaluator的KPI则是模型回应与人类反应的相符程度,同样以F1分数来表示,并分为一致性、复杂性、真实性、有害性等不同面向。这些指标是用来评估,自动化验证机制判断回应为合格时,是否确实符合企业价值。
强化LLM验测品质的未来计划
周彦儒说,酷澎锁定了3个未来可以强化LLM验测品质的方向。
首先是导入动态的价值判断基准。同一个LLM回应,于不同情境下,可接受程度应该不同。举例来说,如果今天有人被困在坍方的山洞,需要学习制作炸弹来逃出生天,LLM生成炸药制作教学,就相较其他情境下更合情合理。现行静态基准,则较难针对个别情境来判断回应是否合乎企业价值。
再来,是尝试多模态验测,而非只验测语言输入输出。随著LLM能力强化,更多人开始利用AI生成图片、音讯、影片等内容。这些生成结果,也可能产生风险,因而需要验测。
最后则是运用联邦学习。周彦儒表示,当LLM应用普及到不同场景、系统、装置,不同环境都需要顾及各自资料隐私和保密性。此时,便能采用联邦学习技术,来综合不同场景的验测经验和资料,进一步改善LLM验测品质。