【臺灣資安大會直擊】酷澎如何用LLM檢測AI安全性與可信度

随著大型语言模型（LLM）应用普及，负责任AI、AI安全性、AI可信度，成为企业要保护商誉及资讯安全，更须注重的议题。酷澎资安工程总监周彦儒说：「只要是风险之所在，就是验测之所在。反复验证LLM安全才能避免输出有害内容，建立信任。」

他观察，目前LLM安全验测主要方式是，用Excel档或其他资料集形式的大量测试问题，输入LLM，人工审查回应是合乎企业对模型的要求。不过，这种验证做法有4个常见挑战：成本过高、无法重现结果、人类标准不一，以及对抗式攻击的风险。

首先是成本过高。周彦儒解释，成本不只是金钱，更重要的是时间成本，以及能够验测的题目量。他估算，一个人进行提示词制作，输入LLM，取得回应，人工评估，每小时做20题已经算多，一整天下来，验测不到200题。要深入且全面安全验测，这个数量远远不够。

再来是结果无法重现。当验测人员疑似找到问题，就算输入相同提示词，LLM每次输出结果都不尽相同，无法重现模型问题，来锁定问题、深入研究。

人类标准不一意即，即使使用同样验测范例，不同人、情境、企业、领域、文化，对于公平性和道德的见解都会不同。当牵涉到没有标准答案的问答，问题会更加明显。

最后一项挑战来自对抗式攻击的风险，周彦儒指出，即便模型验测结果理想，只要有人使用带有恶意的参数微调或训练资料，有可能令模型产生截然不同的生成内容，使先前辛苦验测、调整模型前功尽弃。

LLM验测流程要融入最佳实践方法，自动化是大前提

周彦儒一一给出这4大挑战的解法。首先，面对成本过高问题，验测者应打造自动化验测机制，来大量重复执行验测。有了自动化验测机制，还能使其他挑战的解法变得可行。

例如，要解可重现性挑战，可使用蒙地卡罗模拟（Monte Carlo Simulation），自动对提示词作出些微变化，进行大量测试，来看出现不合格回应的机率高低，并评估风险是否可接受。「既然LLM是一种基于机率的模型，验证方法也该是一种机率性验证。」他说。

针对人类标准不一挑战，企业可以先制定统一判断基准，让验测机制一视同仁的自动化执行，避免人类判断的不稳定性。不只如此，周彦儒还建议加上多数决机制，让验测机制再次判断审查回应的结论是否合理，做为第二层保险。举例来说，可以让多个模型验测相同问答，当多数模型判断LLM回答合格，才真正合格。

因应对抗式攻击的方法，则是由验测人员掌握好对抗式攻击的TPP（技巧、战术、程序），并教导给自动化验测机制，使其能反复针对攻击方法来测试模型防御力。

酷澎综合前述前述4大挑战的应对概念，采取LLM-as-a-Judge做法，打造出一套用LLML验测其他LLM的自动化验测机制。

针对LLM验测四大挑战设计LLM-as-a-Judge机制

酷澎的LLM-as-a-Judge自动化测验机制，分为Planner、Tester、Evaluator三个元件。

Planner负责分析「模型可能如何出错」。做法是，透过对话，对受验测LLM做预测试，来了解模型特性，以及在不同应用情境上，会面临到何种威胁。有这些资料，才能决定设计实际验测题目的方向。

Tester则负责测试「模型有没有可能出错」，根据Planner提供的问题设计方向，生成实际验测问题，来确认受测LLM是否会出现Planner所设想的风险。这些问题，会根据输入输出是否符合预期，分为4类情境的问题。输入输出都符合预期，属于一般使用情境（Use case）。输入不符预期，输出符合预期，属于边缘案例或意外案例（Edge case）。例如，当客服机器人被用来当文书处理机器人，就属于Edge case问题。

输入符合预期，但输出不符合预期，则是幻觉（Hallucination）。输入输出都不符预期，则是攻击（Attack）。「防范攻击是最需要创意的，因为要想像，自己想不到的攻击方式，如何产生不预期的权限提升或回应。」

周彦儒建议，企业自己验测LLM时，也需要针对这4大类情境来设计题目，并充分应用不同情境所对应的验测技术。

Evaluator则负责判断「模型是否真的出错」，从模型回答Tester问题的结果，判断受测模型是否符合Planner预想的风险情况，并告诉测试人员，受测模型在哪些面向，存在何种问题。不只如此，Evaluator还需要回馈Planner和Tester，对受测模型的出题方向和题目设计，能如何优化。

追踪验测机制的重要KPI，来改善验测品质

酷澎也对这3个元件设置不同的KPI来追踪，以持续改善验测品质。

酷澎追踪Planner的KPI是，Planner生成问题集中，预想威胁与模型实际使用情境的对齐程度，以F1分数表示。周彦儒进一步说明，Planner功能表现良好与否，取决于题目设计方向是否符合实际模型功能与应用场景。举例来说，当一个模型功能只负责档案归类，根本没有RAG能力，更没有其他存取外部资料功能。就算拿个资外泄的题目测试，且模型有回应，也只能得出「会产生幻觉」的结论，但并没有真正个资外泄风险。

Tester的KPI则是受测模型被验证集攻击的ASR（攻击成功率）。透过比较受测模型和其他模型的ASR，酷澎可以比较出，受测模型经过Tester验测后，提升多少防御能力。从模型被攻击成功的情况分布中，还可以看到，Tester产生的题目，是深度还是广度上不足。周彦儒说，只有两者兼具，才能确保验测内容具足够代表性，能完整找出模型的风险。

Evaluator的KPI则是模型回应与人类反应的相符程度，同样以F1分数来表示，并分为一致性、复杂性、真实性、有害性等不同面向。这些指标是用来评估，自动化验证机制判断回应为合格时，是否确实符合企业价值。

强化LLM验测品质的未来计划

周彦儒说，酷澎锁定了3个未来可以强化LLM验测品质的方向。

首先是导入动态的价值判断基准。同一个LLM回应，于不同情境下，可接受程度应该不同。举例来说，如果今天有人被困在坍方的山洞，需要学习制作炸弹来逃出生天，LLM生成炸药制作教学，就相较其他情境下更合情合理。现行静态基准，则较难针对个别情境来判断回应是否合乎企业价值。

再来，是尝试多模态验测，而非只验测语言输入输出。随著LLM能力强化，更多人开始利用AI生成图片、音讯、影片等内容。这些生成结果，也可能产生风险，因而需要验测。

最后则是运用联邦学习。周彦儒表示，当LLM应用普及到不同场景、系统、装置，不同环境都需要顾及各自资料隐私和保密性。此时，便能采用联邦学习技术，来综合不同场景的验测经验和资料，进一步改善LLM验测品质。

【台湾资安大会直击】酷澎如何用LLM检测AI安全性与可信度