生成式AI快速发展,然而,现今主流的AI模型使用的训练语料多为英文或是简体中文,导致模型缺少对台湾本地语言习惯、在地文化及价值观,渐渐可能使台湾的在地语言在AI时代被边缘化。IMA资讯经理人协会今年推动Taiwan Tongues「台湾通用语料库计划」,希望建立高品质的台湾语料库,在号召之下,现在已有数十位作家参与、贡献累计超过500万字文学作品。
IMA协会理事长蔡祈岩表示,AI快速发展后,尽管能够支援繁体中文,但因为不了解台湾的语言,导致使用错误的用语或是误读台湾的语言,IMA协会发起Taiwan Tongues,号召作家组成Team Taiwan,让全世界能够听台湾,包括两层涵意,一个是听得懂且理解,另一个则象征我们在AI的主体性及主权,要让AI能理解台湾人的腔、习惯。
Taiwan Tongues目的为建立高品质的语料库,一边搜集语料的同时,也将语料开源,该计划号召台湾的文学作家参与授权,包括台湾使用的语言,包括台湾华语、台湾台语、台湾客语及原住民语,希望让AI能够听懂、理解台湾的声音。
这项计划由IMA执委胡长松带领,身为文学作家的他也带头无偿释出约150万字的作品,号召更多作家加入,目前已有向阳、曾贵海等知名作家参与释出他们的作品,累计已有超过500万字的高品质语料。
胡长松指出,语言承载文化,作家或诗人擅长以诗文寄托文化价值观,在AI时代下当本地的语言边缘化,诗人、作家也应该站出来挽救语言、文化。Taiwan Tongues的目标是号召作家加入,共同建立高品质的台湾语料库,目前已有不少的高品质语料,其中不少是台湾台语文学作品,已陆续上架到Hugging Face,以CC4.0授权,供外界非商业使用,例如语音助理、机器翻译、语言教学、文化推广等等,至于商业授权则必需与个别的作家谈授权。
这个台湾语料库,希望透过开源让外界使用,除了协助台湾的企业或研究机构建立本地的模型,也希望让国外主流的模型运用,为在AI时代下拉抬台湾在地语言、文化在全球AI模型的能见度。
除了发起台湾语料库,Taiwan Tongues计划也和群联电子合作,利用其提供的运算硬体资源,结合Reward Model、RL微调,开发可训练具备多元观点辨识和区域语音调适能力的模型训语境训练框架,来帮助企业训练在地化的AI模型,降低单一语料、单一观点可能产生的偏差风险。
另外,协会也和阳明交智能所的廖元甫教授合作,建立一套台湾语境评测,可对模型验证使用台湾语料库后的成效,经过廖元甫带领团队的测试,使用Taiwan Tongues语料和教育部台湾辞典等公共语料,以CPT持续预训练、SFT微调,经过台湾语料预训练、微调,台语AI模型的正确率评分从31.5提高到42.6分,显示台湾语料对模型带来显著的效果,提高对台语的理解、书信内容生成的正确率。
数发部次长林宜敬则表示,除了民间发起的台湾语料库,未来数发部也会统筹推动公部门的语料,以组成政府机关语料,未来进一步深化公部门和私部门合作,力促政府和民间在语料开放、模型建构和应用评测的合作。另外,今天Taiwan Tongues为号招作家加入,以无偿贡献文学作品,对于不愿意无偿授权的作家,数发部未来也会建立适合的授权机制,让更多作家能够以合理的方式参与。
展望未来,IMA期望Taiwan Tongues继续扩大台湾使用的华语、台语、客语、原住民语等多种语料,并希望和国际上的主流语言模型平台合作,让台湾的语言在全球AI生态中增加更多的能见度。
Taiwan Tongue也准备开启Wiki Taiwan,增加台湾语言在网路世界的能见度,首先是针对台湾使用的华语,号召志工补齐维基百科里只有英文而没有繁体中文的条目,其次是针对台语,先将维基百科上约140笔的繁体中文条目转为台语内容,再进行英文条目的翻译补齐工作。