GitHub
微软上周四(2/22)透过GitHub开源了PyRIT(Python Risk Identification Toolkit for generative AI),以利安全专业人员及机器学习工程师可自动化用来辨识大型语言模型(LLM)风险的程序,包括辨识生成恶意程式、越狱或是资料窃盗等LLM的滥用行为。
微软的AI红队(Microsoft AI Red Team)自2022年开始针对不同的生成式AI系统进行红队演练,以寻找各种风险,当时的PyRIT只是一组一次性的脚本程式,随著该团队每次添增各种功能,将它堆砌成一个可靠的工具。其实微软在2021年便曾开源AI风险评估工具Counterfit,但Counterfit主要是针对传统的机器学习系统,无法满足其底层原则及威胁都有不同风貌的生成式AI,才促使微软AI红队开发新工具。
PyRIT由5个元件所组成,包括用来测试的目标(Target),所使用的提示资料集(Dataset),基于自我评估或是既有分类器的评分引擎(Scoring Engine),单轮或多轮的攻击策略(Attack Strategy),以及存放输入及输出等互动资料的记忆体。
PyRIT可先传送恶意的提示到特定的生成式AI系统,收到回应后再将它传至评分引擎,根据评分引擎传回的结果再产生新的提示,再传送至该生成式AI系统,不断循环直至实现研究人员所设定的目标。根据微软的测试,利用PyRIT针对Copilot进行红队演练时,可先选择一个有害的类别,继之生成数千个恶意提示,再以PyRIT的评分引擎来评估Copilot系统的输出结果,其自动化能力让原本需要几周的测试在短短的几小时内便完成。
不过,微软强调,PyRIT并非用来取代人工的红队演练,而是相辅相成,它扩大了AI红队既有的专业知识,并替它们自动化繁琐的任务。其程序是先由安全研究人员提供有害提示的资料集,接著便交由PyRIT将它们喂进大型语言模型端点,以生成更有害的提示,PyRIT揭露了可能存在的风险,再由研究人员深入探索,研究人员始终控制著红队操作的执行与策略。
微软除了透过GitHub释出PyRIT专案的工具包,以及提供各种示范之外,也预计于3月6日举行一场PyRIT网路研讨会,并欢迎有兴趣的各路人马报名。