数位部在去年12月成立AI评测中心,要来制定台湾的AI产品与系统评测制度和指引。目前已针对大型语言模型制定10项测试类别,如安全性、弹性、可解释性等。(图片来源/数位部)
「我们最快3月底公布AI评测制度和指引!」负责AI评测业务的核心成员、数位发展部数位产业署副署长林俊秀说道。
就在去年12月,数位发展部成立了AI产品与系统评测中心(简称AI评测中心),还预告要制定「AI产品与系统评测制度」与「AI产品与系统评测指引」,来设置台湾AI产品检测和验证标准。如林俊秀所言,这些制度和指引,最快会在今年第一季末出炉。
AI评测中心的出现、AI产品系统评测制度和指引的到来,是否意味著AI厂商与企业,必须通过数位部AI评测,才能贩售或使用AI系统?
台湾AI行动计划2.0催生出AI评测中心
这些疑问,得从AI评测中心的设立谈起。去年,台湾AI行动计划2.0正式展开,在1.0计划的基础上,进一步深化5大层面的AI发展,包括人才、技术和产业发展、国际影响、运作环境和人文社会等。
其中的「运作环境」,催生出了AI评测中心。运作环境面向的发展目标,不只是要完善法规制度、资料治理环境,还涵盖成立AI产品和系统评测中心、加速发展接轨国际的AI规范与标准、对通用领域和特定领域设置AI法规等面向。
因此,去年12月初,数位部成立了AI评测中心,要推动台湾AI评测制度、发展可信任AI环境。同时,在法规部分,我们看到了行政院在去年8月祭出公部门使用生成式AI的指引参考,国科会也联手其他部会草拟AI基本法,预计在今年上半年公布。而在产业规范部分,金管会则率先开出第一枪,领先其他产业主管机关,在去年12月底发布金融业运用AI指引草案,来提供金融业者使用AI的建议。预计接下来,还会有其他主管机关跟进,如卫福部、NCC、交通部等,针对各产业提出AI系统的使用建议。
评测瞄准厂商和企业,将配合产业主管机关来推动
回到AI评测中心,制定「AI产品与系统评测制度」和「AI产品与系统评测指引」是今年的首要目标。就评测制度来说,目的是要检测AI产品或系统,是否符合国际对AI系统的要求,比如安全、可靠、透明等。
至于检测对象则有2种,包括销售AI产品和系统的厂商,以及以AI驱动服务的企业。「不论这个服务是对内还是对外,我们都希望企业能来送测,」林俊秀补充。尤其,数位部自去年开始推动AI技术服务机构服务能量分类与登录机制,来建立一份有符合资格的AI厂商清单,而这些厂商,将是AI评测中心第一波鼓励送测的对象。
林俊秀强调,AI评测不具法律强制力,数位部不会强制要求所有厂商和企业送测,但「会用推广的方式,先锁定政府单位,如国家关键基础设施、各产业主管机关等,搭配这些机关制定的AI指引,来向他们说明、推广检测制度。」他说。
意思是,国家关键基础设施主管机关或各产业主管机关,会制定适合该产业的AI指引,如金管会制定的金融业运用AI指引草案,AI评测中心就会配合这些指引,来与主管机关讨论、说明检测制度,并鼓励其管理的产业业者申请送测。
比如,金融业运用AI指引草案,建议金融业者采用的AI系统4大生命周期,需符合公平性、可解释性和透明性等原则。而AI评测中心的检验项目就包含这些原则,此时金融业者或厂商,就可申请送测AI系统,以证明系统符合指引要求。
不只针对国家关键基础设施和产业主管机关,林俊秀表示,AI评测中心也瞄准民间集团和业者,将对这些对象主动说明评测制度,鼓励业者申请送测自家AI系统。
所以,厂商和企业是否必须通过AI评测,才能贩售或使用AI系统?答案是不用。从林俊秀口中可得知,这些制度和后续出炉的AI评测指引,都不具备强制效力。但若各产业主管机关纷纷祭出产业AI运用指引,来建议各产业业者如何使用AI,势必会带起系统评测更强力的需求。
今年锁定生成式AI,已建立生成式AI评测题库
AI系统包罗万象,AI评测将先瞄准哪些领域?
林俊秀点出,这两年生成式AI遍地开花,AI评测中心今年也锁定生成式AI,先制定合适的测试题目,作为衡量生成式AI的考题。尤其,他们已针对大型语言模型(LLM)制定10项测试类别,包括安全性、可解释性、弹性、公平性、准确性、透明性、当责性、可靠性、隐私及资安等。
其中的公平性、准确性、可靠性、隐私和资安等5大类别,采考题方式来评测。举例来说,可靠性是要判断模型的敏感度,也就是AI系统在面对未预期的状况时,也能维持良好的表现和预测能力,因此常见的考题,就是提问中出现错别字,来判断模型能否依然正确回答。数位部目前共设计了3,000多道题目,接下来还会继续新增。
至于安全性、可解释性、弹性、透明性、当责性等5项类别,数位部打算以设计文件、规格文件等作证资料,采人工审核方式进行。不过,确切的测试方式还在讨论中。
另一方面,林俊秀也透露,他们已用这些测试类别来衡量国科会打造的国产语言模型TAIDE,包括70亿参数(7B)和130亿参数(13B)版本。不过,林俊秀补充,这10项类别只是生成式AI测试的一环,模型就算通过10项测试,还是得接受完整的系统检测,合格后公部门才能正式使用。「检测TAIDE是我们今年的重要目标!」他说。
今年1月,AI评测中心还揭露,这10项测试中的5项已能自动化测试。接下来,AI评测中心除了继续扩充LLM题库,还会制定生成式AI以外的传统机器学习系统评测标准,如适用于影像辨识模型的测试题,来逐步完善台湾AI系统评测制度。
由2大组织执行评测
有了考题之后,AI评测制度还有赖2大关键组织来落实。第一个组织是AI测试实验室,也就是负责执行AI产品和系统检测的单位。另一则是用来把关这些测试实验室的AI验证机构。
这些测试实验室可由民间业者担任。业者必须符合国际AI相关规范、取得财团法人全国认证基金会认证,通过验证后,测试实验室才能评测厂商或企业送测的AI系统。林俊秀指出,他们也可能仿照AI技术服务机构服务能量分类与登录机制,建立一份AI测试实验室的政府名册,来管理检测品质。
至于AI验证机构,则将由资安研究院和工研院组成。他们的目的是把关测试实验室,以及维持市场秩序。林俊秀解释,由于测试实验室可自行决定服务和定价范围,等于自由市场竞争,但AI评测中心会扮演维护市场秩序的角色,因此AI验证机构会负责认定测试实验室的报告,并借此剔除破坏市场机制的不良测试实验室,来确保检测一致性。
不只如此,AI验证机构还有其他任务,比如研究新兴AI技术、判断是否需更改评测方式和题库等。验证机构还能根据评测项目,来要求旗下AI评测开发实验室研发自动化工具,来加速检测作业。林俊秀就点出,他们今年会开发2类自动化工具,一类是给AI测试实验室使用,以加速评测作业,另一类是给AI厂商或企业,让他们在送测前,先透过自动检测工具来判断自家AI系统是否达到检测标准。
另一方面,就接下来要公布的AI评测指引而言,可细分为2种,包括AI产品与系统基本规范,以及AI产品与系统基本检测基准。前者涵盖了适用领域、风险管理、评测项目和规范细则,后者则指每项评测的作法说明,另也根据不同适用领域或风险等级,而制定的不同评测项目。
林俊秀表示,他们在制定这些指引时,参考了各大国际AI标准和规范,如美国国家标准暨技术研究院(NIST)的AI风险管理框架、欧盟AI法案、ISO相关标准等。「指引(草稿)大都拟订好了,若这些规范有所调整,我们也会与时俱进。」林俊秀表示,接下来,他们将召开AI制度委员会,来决定AI评测指引内容,并尽快公布。
届时,这份评测指引会明定更多AI评测的细节,如评测效期,也就是AI系统通过评测后的合格期限。林俊秀补充,要是送测的系统出现改版或重大更新,AI评测中心会要求业者重新送测,以确保检验品质。
10项LLM测试重点
1. 安全性:AI系统某些功能失效时,所产生的回应与风险
2. 可解释性:AI模型的输入与输出,是否存在因果关系或关系的描述
3. 弹性:AI系统能适应不同环境、需求和条件
4. 公平性:AI系统能公平对待不同群体和个体
5. 准确性:衡量AI系统的输出与真实结果的接近程度,即拟合程度
6. 透明性:纠正AI系统运营商和消费者之间的资讯不平衡
7. 当责性:AI系统开发者和使用者需对系统的行为或操作负责
8. 可靠性:评量系统在面对未预期的状况时,能维持良好的表现和预测能力
9. 资料隐私:将可能造成隐私的冲击严重程度分级,以实现风险评估与掌控
10. 系统安全:AI系统面对外部攻击、未授权访问或不当使用时,能保护其资源、功能和资料的完整性和机密性
资料来源:AI评测中心,iThome整理,2024年2月