卓荣泰首次行政院会:盼AI加速应用,提升民间企业生产力及公部门行政效率

图片来源: 

行政院

行政院新内阁在5月20日上任后,行政院长卓荣泰今天(5/23)首次举行行政院会,其中国科会提报可信任生成式AI对话引擎TAIDE(Trustworthy AI Dialogue Engine)成果,在写文章、写信、翻译等任务工作上,与ChatGPT 3.5相当,行政院长卓荣泰指示,盼望国科会持续精进AI技术研究,与其他部会合作加速产业应用,以及公部门运用,提高行政效率。

卓荣泰表示,台湾在半导体产业领先世界,也是民主供应链不可缺的伙伴,为维持关键战略地位,必需掌握AI发展趋势,扩大AI基础建设及人才投资,让台湾成为AI的领头羊,打造台湾的大型语言模型,同时符合总统赖清德上任后提出的AI岛愿景。请国科会持续精进AI技术及应用,并与相关部会协助发展加值应用,加速导入业界,提高民间企业的生产力,并导入政府部门及公共服务领域,提供更夕便民服务,并提升行政效率。

国科会在去年开始推动生成式AI对话引擎TAIDE,以打造具有台湾本地文化特色的LLM,满足国内使用需求,这项计划集结AI相关人才、高速运算、繁体中文资料,整合产学研人力及资源全力发展台湾的LLM。

TAIDE模型在5大日常工作上表现评测上与ChatGPT 3.5相当

去年6月公布采用Llama及中文资料,70亿参数的学研版TAIDE模型,去年9月推出基于Llama 2,可商用的TAIDE-7B模型,先供产学研合作伙伴测试,2024年1月发表基于Llama 2,具有130亿参数的学研版TAIDE-13B,并且开发700亿参数的TAIDE-70B(学研版),今年4月正式开源可商用的TAIDE LX-7B模型,供外界使用。另外,今年4月中Meta发表Llama 3,TAIDE团队也在4月底释出基于Llama3的测试版TAIDE模型。

国研院科政中心副主任徐玉梅表示,TAIDE开发的目的为可信任,因此对于训练的资料严格把关,目前TAIDE模型的表现,利用评测工具,以办公室日常的工作任务,例如写文章、写信、摘要、英翻中、中翻英5项任务,TAIDE-13B模型的表现已和ChatGPT-3.5相当。

以5项任务来评测,评分为0到10分,ChatGPT 3.5得到8.68分,可商用的TAIDE-7B为8.3分,学研用的TAIDE-13B为8.74分。如果以中文mt-bench为评测工具,同样以0到10分为评分,ChatGPT 3.5得到8.72分,可商用的TAIDE-7B只有6.24分,学研用的TAIDE-13B则是8.48分。

尽管4月底已释出基于Llama 3的测试版模型,但目前TAIDE模型仍以Llama 2为主,结合繁体中文训练资料。为了取得繁体中文资料,TAIDE团队从「字词语料」、「通用文本」、「特定领域」三方面盘点公私部门的资料,逐一取得授权,目前资料授权单位涵盖中央部会、地方政府及民间组织,已完成处理的繁体中文资料共113.6GB,用于训练模型。徐玉梅指出,未来精进及发展更大规模的模型,还需要各界提供更多的资料,以训练模型。

至于算力方面,原本台湾杉二号建置32台Nvidia V100,供TAIDE模型专用。政府去年以1.1亿元建置Nvidia H100,并与暨有台湾杉二号整合,去年12月正式服务,模型训练所需的时间缩短一半。

为了让模型符合需求,团队开发模型的同时,也和产学研合作,例如知识检索、跨,在产业方面,有业者结合模型开发企业专用的AI一体机,还有知识管理查询、公文辅助文稿。

徐玉梅表示,在计划推动一开始,就与产学研共同合作,目前的合作案例,一部分在开发中,部分则已商品化,也有一些正与政府部门接洽,希望推动实际的应用。

目前TAIDE模型的应用已有国台客语,缺少原住民语言,她补充说明,目前TAIDE以纯文字为主,训练模型需要大量资料,原住民语言资料多以影像、影音为主,原住民语言的资料搜集比较不易,后续会与原住民委员会,或是从数位典藏国家型计划寻找可利用的原住民语言资料,TAIDE第一阶段为纯文字资料,后续会发展多模态发展,搜集图片资料。

至于未来产业及公部门如何运用?国科会政务副主委林法正表示,TAIDE为基础或通用模型,释出供外界运用,公部门可结合其业务特有的资料,可应用在资料汇整、会议记录汇整,写公文,或是回复民众的询问。TAIDE计划刚开始与教授合作,因此最初应用在教育方面,未来在法律、医疗的应用也正在发展中。

AI快速发展应用,各国制定专门的法规,台湾也在研拟AI基本法,林法正指出,因AI科技发展非常快,各国在制定基本法上都采取观望态度,因应外界的期望,国科会原本预定今年底提出基本法给行政院,如果行政院认为有需要提前,可提前至10月提出基本法。