【金融GAI先行者经验:玉山金控】从单一应用迈向规模化发展,自建GAI开发框架支持不同业务需求

图中由左到右分别为,玉山银行智能金融处主任工程师陈建安、玉山银行智能金融处资深副总工程师林钲育,和玉山银行智能金融处主任工程师徐明霞。 (摄影/洪政伟)

两年前,玉山金控就开始布局生成式AI。从单一GenAI应用切入,一路发展出多款应用服务。今年初,玉山金更正式推出多功能的生成式AI平台GENIE,可透过API方式,将GenAI整合到不同的应用场景和内部系统中,让生成式AI更容易落地到多种工作流程中。

今年上半年,玉山透过GENIE平台推出了11项生成式AI应用服务,包含基础和进阶应用服务。前者包括了纯文字和图片生成、会议记录生成和摘要总结翻译等基础服务,每项应用服务都能适用于多种场景。后者则是可以开发进阶版的GenAI应用服务,提供特定场景、更复杂的功能。例如,法规文件比对、市场资讯摘要和生成,或运用客服资料进行顾客情绪分析。

在发展通用技术平台的过程中,玉山也不断搜集更多适用GAI的场景,他们不仅关注旧场景,也探索因新技术诞生的新场景,更归纳出不同场景快速上手GenAI的作法。玉山银行智能金融处资深副总工程师林钲育透露:「要用新架构瞄准新场景,先从RAG(检索增强生成)开始。」

不过,到了今年下半年,随著内部GAI应用发展数量和需求逐渐增加,玉山关注的焦点逐渐转向,开始思考如何让GAI应用走向规模化。

一方面,不同业务单位有相似需求,需要共用的开发框架,让同样功能的元件,重复运用到不同场景,快速支持业务单位发展GAI应用。另一方面,玉山也开始设想,若未来需要将GAI发展至更多特殊场景,如配合集团海外战略,得将服务推往国外,甚至是非英文语系国家中,「我们要怎么做?」玉山银行智能金融处主任工程师徐明霞开始思考更长期的课题。

短期内,玉山需要一个GenAI开发框架,快速支持业务单位各种需求,但考虑到框架的永续性,玉山期望,开发框架也能弹性扩充,日后遇到从未接触过的场景,也能快速因应。这个框架,不仅要让开发者灵活运用各种元件打造GAI应用,还要整合新、旧元件,让开发者发展GAI新元件同时,也能运用玉山过往的AI技术元件。

现成开发框架存在限制,无法满足弹性需求

一开始,玉山考虑采用现成的GenAI开发框架,进行可行性评估后发现,无法满足他们的需求。

首先,现成开发框架仍有不少限制。以目前流行的GenAI框架LangChain为例,这个框架将既有GenAI元件封包成固定形式,难以因应复杂的金融业务逻辑来调整。「 有些资料处理过程需要结合业务逻辑,它(框架)没办法做到。」徐明霞说。特别是,要整合行内资料时,玉山技术团队发现,「我们的资料结构不能够契合这套框架。」

现成开发框架无法因应业务需求调整,甚至难以串接行内资料,最终也导致,用LangChain开发出来的GenAI应用成效,不如玉山的预期。

另外,由于GenAI技术尚在高速发展,部分现成开发框架迭代速度快,甚至更新版本时,不提供向下相容。对企业而言,这些情况徒增不少维运困扰,不适合长期运用。

再来,当玉山想要整合新、旧元件时,发现「要将既有元件整合至现成框架,并不容易。」玉山银行智能金融处主任工程师陈建安说。

早在2018年,玉山就开始大力推动AI,发展至今,累积了不少自制的技术元件,包括语音辨识、图片辨识、搜寻引擎等。这些过往发展的AI技术基础,虽有利玉山快速发展GenAI,却也延伸出新的技术挑战。

评估后发现行不通,玉山技术团队决定不采用现成框架,而是模拟现成框架的架构,自行打造一个专属玉山的GenAI开发框架。

从单一应用实作经验起步,模拟现成框架设计,自建各种元件

玉山的作法是,模仿现成GenAI开发框架的设计架构,自行打造其中的各种元件。玉山用一只GenAI应用的开发过程来实作,慢慢将这套应用开发模式,发展成一套完整开发框架。

今年中,玉山技术团队从头打造出一款人资GenAI助手,开发过程中,玉山技术团队自行开发了数个技术元件,例如,表格资料萃取、文件档案萃取、简报资料萃取等元件。并且,技术团队也和业务单位合作,根据使用者需求来回调整,「自己可以直接调整内部元件,就不会被框架绑死。」徐明霞说。

玉山这套自制GenAI框架,未来可以运用在其他场景,例如理专助手等财务知识场景,甚至也能扩展到客服场景。考量到未来这套框架需整合既有技术元件,目前玉山正在进行元件标准化作业,要让新、旧元件都容易善用。

不仅要打造开发框架,长远目标是发展业务人员使用的AI开发平台

虽然,玉山现阶段目标是打造GAI开发框架,不过,玉山更长远的目标是,打造一套「可供业管快速迭代生成式AI应用的框架,」陈建安说:「这个框架不只锁定开发者,而是要让业务单位可以提供自己的知识。」例如,未来的框架中可以提供低程式码或无程式码平台,让业务人员可以动手尝试开发GAI应用。

比起直接提供封装完成的GAI应用,玉山更期望的是,业务人员也能灵活取用技术元件,来开发各种应用。

早在过往玉山发展RPA技术时,就用半自动模式,「每一只RPA程式,都得有人按下按钮才会执行。」林钲育解释,为了做到靠人员监督RPA,玉山过去曾大规模训练员工学习RPA技术,「让使用者掌握基础技术知识,业务人员才有能力思考如何将技术运用在业务场景。」

玉山也将同样的技术发展策略,套用到Chatbot发展,同样由业务人员提供相关知识,来完成各项Chatbot应用。「我们想像GAI未来也会朝这个方向发展。」陈建安说。

GENIE不仅是行员助手,还是让行员能和技术元件沟通的入口

为了让业务人员可以掌握基础GAI知识,玉山除了在内部举办教育训练,也期望透过GENIE平台,让业务人员先动手尝试,对技术累积一定程度了解,「至少让他们认知AI是什么模样。」陈建安说。

甚至,玉山对GENIE平台的想像,不仅是能加速业务流程、解决业务问题的行员OA助手,还是一个能让业务人员与各种元件沟通的介面,「像是一个入口,背后叠加了许多服务。」陈建安解释,当业务人员和GENIE平台互动时,表面上看似在平台上进行对话,实际却是运用了平台背后串接的各式元件,包括玉山自有的影像辨识、语音辨识等技术元件。

今年9月初,玉山更近一步推出了GENIE 2.0平台,不仅提升平台背后串接的模型服务,也改善使用者介面设计,让开发者更灵活收集使用者回馈。更关键的升级是,「直接抽换了底层,让GENIE可以扩充其他元件。」林钲育解释,GENIE 2.0和1.0的最大差异,是从固定架构走向可扩充式的架构,「现在可以将第三方API放进平台。」不只外部业者的API,连玉山既有发展的AI元件,也能用同样的API形式整合到GENIE平台。

GENIE 2.0的登场,为玉山GenAI迈向规模化的发展之路,提供了更加强大的基础。

 

 玉山GenAI平台GENIE从1.0走到2.0 

今年上半年,玉山推出GENIE平台1.0版,有两大特色:API化服务和检索增强生成(RAG)技术。一方面,GENIE是一只独立的API,可以整合到多种延伸应用服务,内部系统可以透过API串接来使用GENIE的功能。另一方面,玉山自建丰富的金融知识库,藉RAG技术,来提升LLM模型回应金融领域问题的精准度。不过,1.0版的GENIE无法弹性增加其他元件,都得靠客制开发来整合。

 玉山GenAI平台GENIE1.0 

到了今年9月,玉山推出GENIE2.0版,不仅改善了使用者介面设计和平台背后串接的模型服务,更把平台基础架构抽换成可扩充的架构,容易整合更多功能元件。

 玉山GenAI平台GENIE2.0 

甚至,GENIE的定位,也从单一API,成为一个能让业务人员与各种元件沟通的介面。当业务人员和GENIE互动时,表面上是在平台上进行对话,实际上运用了平台背后串接的各式元件。除了既有Chatbot服务,玉山内部前端系统也能直接介接GAI应用服务,让GenAI在无形中辅助业务人员完成工作任务。图片来源/玉山金控

 

 建立标准化评测机制,加速测试LLM模型 

 回应有效性 

玉山的GAI应用主要由业务人员和开发人员共同协作完成。业务人员会先提供业务情境,由开发人员提供初版提示,待业务人员拿到提示后,可以在GENIE平台上进行测试,并和开发人员讨论模型回应结果,双方合作修改多个提示版本后,协作打造出一款GenAI应用。

不过,在修改提示阶段,业务人员需要测试多种情境,并和开发人员来回确认测试情境结果,耗时又耗力。

为了加速业务人员测试各种情境,玉山针对各个业务场景,额外设置测试集,透过LLM来为GAI应用评分,将GAI应用评测机制标准化。

建立评测机制后,省下一半的GAI应用开发时长

在建立标准化测试流程时,玉山技术团队会根据应用类型,切割出需要测试片段和测试种类,明确定义测试流程。再来,业务单位会负责提供测试资料集,包括真人回应的标准答案,以及标准答案对应分数。接著,技术团队再运用这套资料集,比对真人回应和模型回应结果,以此建立模型回应评分机制。

目前,玉山的测试集可分为两类,一类是针对搜寻任务设计的测试集,另一类是针对回应内容设计的测试集。

以人资助手为例,由于人资经常举办考试,因此,玉山技术团队使用LLM模拟参与考试的行员。当业务人员修改提示,可以对照LLM参与考试的作答分数,来评测模型回应优劣。若LLM作答分数高,代表业务人员修改的提示、产出的模型回应内容有效,反之,若LLM考试分数低,则代表业务人员需要再修改模型回应。这是玉山其中一种测式模型回应内容的形式。

另外,针对搜寻任务,玉山金控技术团队在测试集中设计多种搜寻结果,让业务人员可以判断测试情境能否有效让模型搜寻到正确资料,和正确回答问题。例如,当业务人员输入特定测试情境,业务人员可以得知,模型在测试情境中能否搜寻到正确答案,以及能否正确回答问题,或是,模型能搜寻到部分答案,但无法完全回答问题。另外,LLM会针对模型回应的正确性进行评分,协助业务人员加速测试各种情境。

玉山尚未建立评测机制前,开发人员需和技术人员反复确认不同测试情境结果,单一应用历经半年开发时长,才正式上线。建立评测机制后,则节省近一半开发时间,以玉山近期上线的随行理专为例,仅花三个月,就从实验走到正式上线。

 相关报导