【企业LLM实战:叡扬资讯】实测多种LLM更走访企业现场,归纳台湾企业LLM应用3大挑战

叡扬资讯展开内部专案,利用商用大型语言模型和开源语言模型发展员工专用的智能秘书,能根据串接的企业知识文件,来回答员工问题。

图片来源: 

叡扬资讯

去年11月,ChatGPT横空出世。与大多数企业一样,「我们觉得世界变了!」叡扬资讯技术服务总处暨创新研发中心副总经理林县城指出,那时起,他们开始盘点各种整合方法,要以最快的方式,将LLM能力整合至自家产品中,提供更好的服务。

2019年,叡扬资讯推出AI对话平台产品,成为不少企业的小帮手。一路来,他们有组30多人的研发团队,及时研究最新技术,不只在语言模型BERT问世时,就用来强化Chatbot理解意图的能力,今年还大力拥抱大型语言模型(LLM),如GPT-4、Llama 2、Taiwan-LLM和国科会打造的TAIDE等,要让AI Chatbot的回答更自然、范围更广。

他们不只用这些模型发展内外部服务,也在这个过程中,看见台湾企业应用LLM的困难和挑战。

展开内部专案,累积LLM实战经验

当微软推出Azure OpenAI服务后,叡扬就立刻用来优化自家AI对话平台。因为,原本的对话机器人,只能根据提问中的一个意图来回答,若采用LLM,不仅能分辨提问中的多个意图,还能结合知识库,来产出更贴切的答案。

为验证这个目标,叡扬资讯展开一项POC专案,用AOAI LLM加持的对话平台,来打造内部专用的员工AI秘书Chatbot。他们采取检索增强生成(RAG)方法,将自家知识管理系统的人资类基础文件作为检索对象,当使用者向Chatbot提问后,会先由嵌入式模型(Embedding model)将问题转为向量空间,来比对检索用的知识库、找出最相符资料,再透过LLM整理、生成最终答案给使用者。而且,LLM生成的答案还会附上资料来源,来降低误解风险。

不只AOAI,叡扬还尝试了其他LLM模型来验证,包括Meta开源的可商用语言模型Llama 2,以及台大师生团队释出的Taiwan-LLM,还有国科会以Llama 2为基础打造的TAIDE模型。

因采用RAG机制,模型不需上通天文、下知地理,因此,叡扬资讯只准备了相对少量的800万个Token的阅读理解资料集,来对模型进行监督式微调,加强模型对特定领域的理解力。另考量运算成本,他们采用参数高效能微调(PEFT)方法,以LoRA压缩技术、只微调模型的5%参数,来提高模型能力。

目前,不同LLM模型的验证还在持续进行中,不过,叡扬初步评估,AOAI服务是其中最成熟的作法。不只用来优化AI对话平台,叡扬资讯还打算进一步将LLM整合至其他产品,如知识管理平台、公文系统等,前者要让企业以RAG方式,来打造各领域的问答Chatbot,后者则能生成样板,来加速公文作业时间。

企业LLM应用的三大挑战

除了自家LLM实战经验,过去1年来,叡扬资讯也接到不少企业客制化LLM应用的需求,甚至实地走访了不少企业。林县城观察,一般10亿个参数规模的LLM,就可满足大部分企业应用需求了,不过他坦言,虽然企业需求量大,但目前应用状况几乎以POC专案为主,实际上线的应用非常少。

一年来参与大量内外部POC专案后,他认为,一般企业要自行发展LLM应用,门槛并不低,有三大挑战要面对。

首先,企业要找出具业务价值的应用案例。他说明,叡扬资讯每到一家企业了解时,一定会问的问题是,是否已经找到「业务上真正有价值的应用案例」,但多数企业都给出否定答案。林县城认为,这是企业采用LLM时,首要思考的课题。

第二个挑战是资料。不论是企业自行使用开源LLM,还是采购系统厂商服务,都得有完整、干净的资料,才能用来微调模型,满足客制化需求。在资料层面,企业常面临资料量不足或品质参差不齐的问题,叡扬资讯处理企业客户的需求时,经常得花大把时间来清理资料。这是第二个企业要面对的课题。

第三,企业要有相关人才,长期投入来累积实务经验。林县城说明,以自行采用开源LLM来说,企业本身要有技术团队和长年的实务经验,才能做好资料清理、资料集建置和微调工作,甚至是LLM应用幕后的「LLMOps维运工作和自动化工具,」才能确保应用能持续作业,这也是叡扬资讯自己的实战经验。

建言:台湾需要国家级繁中语料和测试基准

林县城认为,一般企业要从头打造一套符合在地文化的LLM,更是困难。首先,这种具备在地文化知识的LLM,通常以开源LLM为基础,透过大量繁中资料进行连续预训练、微调和RLHF等三阶段优化才能成形。

这三个阶段的工作成本很高,比如预训练需要大量繁中资料,Token数通常是模型参数的20倍,也需要长达几个月的训练时间。但是,台湾目前打造的模型,所使用的预训练Token数在数十亿至300亿左右,还有进步空间。因此,林县城建议,台湾可透过国家性计划,如TAIDE计划,来开源更多繁中资料集,补足这个差距。

再来,微调又分为全参数微调和参数高效能微调(PEFT),前者对模型的学习表现最好,但耗费的运算资源较多。对资源有限的企业来说,只能采取微调少量参数的PEFT方式来增强模型表现。

而RLHF工作也得耗费大量人力成本,对一般企业来说,不太可能完整实作。「上述的模型预训练、全参数微调和RLHF,还是得靠国家力量来完成,」林县城还建议,台湾也能设计评估模型繁中能力的基准测试(Benchmark),才能更精准衡量模型表现,以利后续应用。

相关报导