【金融GAI先行者經驗：玉山金控】從單一應用邁向規模化發展，自建GAI開發框架支持不同業務需求

图中由左到右分别为，玉山银行智能金融处主任工程师陈建安、玉山银行智能金融处资深副总工程师林钲育，和玉山银行智能金融处主任工程师徐明霞。　（摄影／洪政伟）

两年前，玉山金控就开始布局生成式AI。从单一GenAI应用切入，一路发展出多款应用服务。今年初，玉山金更正式推出多功能的生成式AI平台GENIE，可透过API方式，将GenAI整合到不同的应用场景和内部系统中，让生成式AI更容易落地到多种工作流程中。

今年上半年，玉山透过GENIE平台推出了11项生成式AI应用服务，包含基础和进阶应用服务。前者包括了纯文字和图片生成、会议记录生成和摘要总结翻译等基础服务，每项应用服务都能适用于多种场景。后者则是可以开发进阶版的GenAI应用服务，提供特定场景、更复杂的功能。例如，法规文件比对、市场资讯摘要和生成，或运用客服资料进行顾客情绪分析。

在发展通用技术平台的过程中，玉山也不断搜集更多适用GAI的场景，他们不仅关注旧场景，也探索因新技术诞生的新场景，更归纳出不同场景快速上手GenAI的作法。玉山银行智能金融处资深副总工程师林钲育透露：「要用新架构瞄准新场景，先从RAG（检索增强生成）开始。」

不过，到了今年下半年，随著内部GAI应用发展数量和需求逐渐增加，玉山关注的焦点逐渐转向，开始思考如何让GAI应用走向规模化。

一方面，不同业务单位有相似需求，需要共用的开发框架，让同样功能的元件，重复运用到不同场景，快速支持业务单位发展GAI应用。另一方面，玉山也开始设想，若未来需要将GAI发展至更多特殊场景，如配合集团海外战略，得将服务推往国外，甚至是非英文语系国家中，「我们要怎么做？」玉山银行智能金融处主任工程师徐明霞开始思考更长期的课题。

短期内，玉山需要一个GenAI开发框架，快速支持业务单位各种需求，但考虑到框架的永续性，玉山期望，开发框架也能弹性扩充，日后遇到从未接触过的场景，也能快速因应。这个框架，不仅要让开发者灵活运用各种元件打造GAI应用，还要整合新、旧元件，让开发者发展GAI新元件同时，也能运用玉山过往的AI技术元件。

现成开发框架存在限制，无法满足弹性需求

一开始，玉山考虑采用现成的GenAI开发框架，进行可行性评估后发现，无法满足他们的需求。

首先，现成开发框架仍有不少限制。以目前流行的GenAI框架LangChain为例，这个框架将既有GenAI元件封包成固定形式，难以因应复杂的金融业务逻辑来调整。「有些资料处理过程需要结合业务逻辑，它（框架）没办法做到。」徐明霞说。特别是，要整合行内资料时，玉山技术团队发现，「我们的资料结构不能够契合这套框架。」

现成开发框架无法因应业务需求调整，甚至难以串接行内资料，最终也导致，用LangChain开发出来的GenAI应用成效，不如玉山的预期。

另外，由于GenAI技术尚在高速发展，部分现成开发框架迭代速度快，甚至更新版本时，不提供向下相容。对企业而言，这些情况徒增不少维运困扰，不适合长期运用。

再来，当玉山想要整合新、旧元件时，发现「要将既有元件整合至现成框架，并不容易。」玉山银行智能金融处主任工程师陈建安说。

早在2018年，玉山就开始大力推动AI，发展至今，累积了不少自制的技术元件，包括语音辨识、图片辨识、搜寻引擎等。这些过往发展的AI技术基础，虽有利玉山快速发展GenAI，却也延伸出新的技术挑战。

评估后发现行不通，玉山技术团队决定不采用现成框架，而是模拟现成框架的架构，自行打造一个专属玉山的GenAI开发框架。

从单一应用实作经验起步，模拟现成框架设计，自建各种元件

玉山的作法是，模仿现成GenAI开发框架的设计架构，自行打造其中的各种元件。玉山用一只GenAI应用的开发过程来实作，慢慢将这套应用开发模式，发展成一套完整开发框架。

今年中，玉山技术团队从头打造出一款人资GenAI助手，开发过程中，玉山技术团队自行开发了数个技术元件，例如，表格资料萃取、文件档案萃取、简报资料萃取等元件。并且，技术团队也和业务单位合作，根据使用者需求来回调整，「自己可以直接调整内部元件，就不会被框架绑死。」徐明霞说。

玉山这套自制GenAI框架，未来可以运用在其他场景，例如理专助手等财务知识场景，甚至也能扩展到客服场景。考量到未来这套框架需整合既有技术元件，目前玉山正在进行元件标准化作业，要让新、旧元件都容易善用。

不仅要打造开发框架，长远目标是发展业务人员使用的AI开发平台

虽然，玉山现阶段目标是打造GAI开发框架，不过，玉山更长远的目标是，打造一套「可供业管快速迭代生成式AI应用的框架，」陈建安说：「这个框架不只锁定开发者，而是要让业务单位可以提供自己的知识。」例如，未来的框架中可以提供低程式码或无程式码平台，让业务人员可以动手尝试开发GAI应用。

比起直接提供封装完成的GAI应用，玉山更期望的是，业务人员也能灵活取用技术元件，来开发各种应用。

早在过往玉山发展RPA技术时，就用半自动模式，「每一只RPA程式，都得有人按下按钮才会执行。」林钲育解释，为了做到靠人员监督RPA，玉山过去曾大规模训练员工学习RPA技术，「让使用者掌握基础技术知识，业务人员才有能力思考如何将技术运用在业务场景。」

玉山也将同样的技术发展策略，套用到Chatbot发展，同样由业务人员提供相关知识，来完成各项Chatbot应用。「我们想像GAI未来也会朝这个方向发展。」陈建安说。

GENIE不仅是行员助手，还是让行员能和技术元件沟通的入口

为了让业务人员可以掌握基础GAI知识，玉山除了在内部举办教育训练，也期望透过GENIE平台，让业务人员先动手尝试，对技术累积一定程度了解，「至少让他们认知AI是什么模样。」陈建安说。

甚至，玉山对GENIE平台的想像，不仅是能加速业务流程、解决业务问题的行员OA助手，还是一个能让业务人员与各种元件沟通的介面，「像是一个入口，背后叠加了许多服务。」陈建安解释，当业务人员和GENIE平台互动时，表面上看似在平台上进行对话，实际却是运用了平台背后串接的各式元件，包括玉山自有的影像辨识、语音辨识等技术元件。

今年9月初，玉山更近一步推出了GENIE 2.0平台，不仅提升平台背后串接的模型服务，也改善使用者介面设计，让开发者更灵活收集使用者回馈。更关键的升级是，「直接抽换了底层，让GENIE可以扩充其他元件。」林钲育解释，GENIE 2.0和1.0的最大差异，是从固定架构走向可扩充式的架构，「现在可以将第三方API放进平台。」不只外部业者的API，连玉山既有发展的AI元件，也能用同样的API形式整合到GENIE平台。

GENIE 2.0的登场，为玉山GenAI迈向规模化的发展之路，提供了更加强大的基础。

玉山GenAI平台GENIE从1.0走到2.0

今年上半年，玉山推出GENIE平台1.0版，有两大特色：API化服务和检索增强生成（RAG）技术。一方面，GENIE是一只独立的API，可以整合到多种延伸应用服务，内部系统可以透过API串接来使用GENIE的功能。另一方面，玉山自建丰富的金融知识库，藉RAG技术，来提升LLM模型回应金融领域问题的精准度。不过，1.0版的GENIE无法弹性增加其他元件，都得靠客制开发来整合。

玉山GenAI平台GENIE1.0

到了今年9月，玉山推出GENIE2.0版，不仅改善了使用者介面设计和平台背后串接的模型服务，更把平台基础架构抽换成可扩充的架构，容易整合更多功能元件。

玉山GenAI平台GENIE2.0

甚至，GENIE的定位，也从单一API，成为一个能让业务人员与各种元件沟通的介面。当业务人员和GENIE互动时，表面上是在平台上进行对话，实际上运用了平台背后串接的各式元件。除了既有Chatbot服务，玉山内部前端系统也能直接介接GAI应用服务，让GenAI在无形中辅助业务人员完成工作任务。图片来源／玉山金控

建立标准化评测机制，加速测试LLM模型

回应有效性

玉山的GAI应用主要由业务人员和开发人员共同协作完成。业务人员会先提供业务情境，由开发人员提供初版提示，待业务人员拿到提示后，可以在GENIE平台上进行测试，并和开发人员讨论模型回应结果，双方合作修改多个提示版本后，协作打造出一款GenAI应用。

不过，在修改提示阶段，业务人员需要测试多种情境，并和开发人员来回确认测试情境结果，耗时又耗力。

为了加速业务人员测试各种情境，玉山针对各个业务场景，额外设置测试集，透过LLM来为GAI应用评分，将GAI应用评测机制标准化。

建立评测机制后，省下一半的GAI应用开发时长

在建立标准化测试流程时，玉山技术团队会根据应用类型，切割出需要测试片段和测试种类，明确定义测试流程。再来，业务单位会负责提供测试资料集，包括真人回应的标准答案，以及标准答案对应分数。接著，技术团队再运用这套资料集，比对真人回应和模型回应结果，以此建立模型回应评分机制。

目前，玉山的测试集可分为两类，一类是针对搜寻任务设计的测试集，另一类是针对回应内容设计的测试集。

以人资助手为例，由于人资经常举办考试，因此，玉山技术团队使用LLM模拟参与考试的行员。当业务人员修改提示，可以对照LLM参与考试的作答分数，来评测模型回应优劣。若LLM作答分数高，代表业务人员修改的提示、产出的模型回应内容有效，反之，若LLM考试分数低，则代表业务人员需要再修改模型回应。这是玉山其中一种测式模型回应内容的形式。

另外，针对搜寻任务，玉山金控技术团队在测试集中设计多种搜寻结果，让业务人员可以判断测试情境能否有效让模型搜寻到正确资料，和正确回答问题。例如，当业务人员输入特定测试情境，业务人员可以得知，模型在测试情境中能否搜寻到正确答案，以及能否正确回答问题，或是，模型能搜寻到部分答案，但无法完全回答问题。另外，LLM会针对模型回应的正确性进行评分，协助业务人员加速测试各种情境。

玉山尚未建立评测机制前，开发人员需和技术人员反复确认不同测试情境结果，单一应用历经半年开发时长，才正式上线。建立评测机制后，则节省近一半开发时间，以玉山近期上线的随行理专为例，仅花三个月，就从实验走到正式上线。

相关报导

【金融GAI先行者经验：玉山金控】从单一应用迈向规模化发展，自建GAI开发框架支持不同业务需求