国科会TAIDE计划与产学研合作扩大应用,4月底已释出基于Llama3的测试版模型

国科会主委吴政忠揭示TAIDE计划已打造并公开释出具有台湾本地文化特色的模型,过去一年多更与产学研合作,验证TAIDE模型的可用性及多样性。

图片来源: 

国科会

去年2月,国科会宣示将结合台湾在地文化推出本地的LLM模型,并集结国内产学研资源推动可信任AI对话引擎(TAIDE)计划,今天(5/3)国科会展示TAIDE计划最新进展,除了4月中已释出基于Llama 2的TAIDE商用化模型,计划团队更跟上最新技术发展,4月底刚释出基于Llama 3的TAIDE测试版,未来将透过更多产学研合作开发应用,希望让TAIDE能深入更多产业应用。

去年6月TAIDE计划首次展现成果,以Meta开源的LLM模型Llama为基础,搜集大量的繁体中文资料,加上国网中心的超级电脑算力助攻,打造符合台湾在地文化的对话引擎模型TAIDE,初期具备70亿参数,可作摘要、翻译、写信、写文章等功能,TAIDE计划负责人阳明交大应数系教授李育杰并宣示,TAIDE模型接下来将朝更大参数规模及可商用化发展。

距离初次成果不到一年,今年4月中释出基于Llama 2,可商用的TAIDE LX-7B,另外还有学研用版本、具有130亿参数的TAIDE LX-13B,国科会强调目前TAIDE模型在摘要、写信、写文章、英翻中、中翻英等都具不错的表现,并且具备多轮对话、阻绝不恰当回应的能力。

国科会主委吴政忠指出,过去一年结合研究团队、资料团队,以及国网中心提供的算力,结合产学研打造出符合台湾文化的本地生成式AI引擎,今年4月中释出TAIDE LX-7B,并且通过产学研的努力,验证开发各种TAIDE应用,展现模型的可用性及多样性。TAIDE团队经过一年的演练,Meta于4月中释出Llama 3,团队仅花费4天就快速更新版本,相当不容易。

政府可望于年底提出AI基本法

吴政忠表示,TAIDE计划一开始就希望结合产业、学术研究,如同造车一样,TAIDE如同车辆的基本引擎,各行各业可以使用这个引擎设计开发自己车款。自生成式AI出现后,不只是科技产业应用,也会在各产业百工百业应用。生成式AI所带来的影响,政府虽已针对公务使用提出指引,但只有这样还是不够,除了生产作业效率的提升,还需顾及伦理及安全,今年底可望制定AI基本法。

TAIDE计划负责人李育杰表示,TAIDE计划推动之初即希望不只是研究,也要让产业加入,并期望带动台湾产业AI化,去年适逢Meta释出可商用化的Llama2,让TAIDE得以打造可商用的版本。不只是企业,为了让全民都能使用TAIDE,团队将TAIDE 7B模型作压缩处理,现在模型已可在手机、笔电、平板电脑、桌机上执行。

李育杰表示,今年4月15日团队在Hugging Face释出TAIDE LX-7B,随后4月19日Meta释出Llama 3,为了打造可信任的AI模型,得益于团队过去一年练功打下的基础,团队仅花4天就完成Llama 3-TAIDE-LX-8B-Chat-Alpha 1测试版模型,并且已在4月29日在Hugging Face释出。经过测试比较,这个基于Llama 3的TAIDE 8B模型,其效能表要比基于Llama 2,具有130亿参数的TAIDE模型更好,甚至可比美采用Llama 2的TAIDE 70B模型。

过去一年多的开发 李育杰也分享TAIDE计划开发的一些心得,过去一年多,由于开源LLM发展相当快速,他笑称团队真的是一直跟著趋势跑,使用的开源LLM,从一开始采用的BLOOM,随后使用Llama 1、Llama 2,中间出现Mistral,团队也有采用Mistral,后来Llama 3出现。

大型语言模型需要大量的运算资源,在算力方面,团队虽有国网中心72片H100 GPU算力支援打造TAIDE,但AI模型需要仰赖大量算力,李育杰指出,国外的新创团队甚至有1,500片H100,而Llama 3团队则使用2,4000片的H100,显示在国际算力的竞争,台湾的TAIDE国家队可获得的资源相当有限,需要更聪明的方式推动本地LLM发展。

未来,TAIDE将持续增加模型的多样化,并且搜集各领域的正体中文资料,持续加强模型的繁体中文表达能力,使其更具有台湾特色。其次是,追踪新的生成式AI发展,将最新的技术融入到模型的训练中。

带动TAIDE对话引擎的应用多样性

在开发TAIDE模型的同时,过去一年多,与产学研合作开发相关的应用,今天也在现场展示产学研的TAIDE应用开发成果。

例如阳明交大展示了以ChatGPT和TAIDE开发的台客语对话平台(下图),能以语音的方式对著电脑说话,电脑即可以华台客英语,以听说读写翻译或是回复对话。另外,阳明交大也展示以TAIDE对话引擎开发的多语言翻译功能,可翻译英、日、印尼、越南语。

高雄大学则是展示Kuwa GenAI OS(下图),为本土开发的开源码生成式AI应用平台,搭载TAIDE模型,强调可让个人或企业在地端执行TAIDE生成式AI应用服务。

中兴大学则是以农业知识库开发神农TAIDE,使用者可以发问,例如稻伏发生的原因,系统会从知识库中快速过滤、摘要,提出发生稻伏的可能原因。另外,台南大学则是将TAIDE应用在台英语的对话机器人,让中小学生可透过机器人学习台语。

另外,工研院电光所也运用TAIDE,结合Advanced RAG技术,针对钢铁的产业知识提供智慧化的问答检索,例如询问高炉或电弧炉相关的产业知识:

资服业者也开始运用TAIDE,例如叡扬展示企业知识库,透过语句查询,快速检索、摘要可能的资讯,另外,也针对公务人员使用的公文系统,透过生成式AI辅助公务人员生成公文(下图)。