国泰金控云端资料湖仓平台架构大公开!自行研发ETL工具、ML平台也上云

国泰金控今年开始搭建云端资料湖仓平台,国泰新设计的现代化数据架构可分为6层,每项资料皆会从资料来源层,流通至资料注入层、资料湖仓层,和资料使用层,最后再到应用层。底层的资料治理层则贯穿所有资料管道。(图片来源:国泰金控)

国泰金控在今年获金管会核准数据上云计划,开始在云端环境中搭建资料湖仓平台。这是国内金融业者中,第一家业者开始在云端环境中搭建不限定用途的资料湖仓平台,能利用资料仓储处理交易资料的能力,也能结合资料湖支援处理非结构化资料的能力,支持业务更多样性的数据需求。在今年的国泰技术年会中,国泰金控数数发中心数据暨人工智慧发展部协理刘浩翔进一步揭露团队如何设计云端资料湖仓平台架构,并公开现代化数据架构的资料治理要点。

早在2020年,国泰金控就启动了集团上云的现代化计划,并在2021年喊出5年100套系统上云目标。截至今年9月,国泰金控已有71套系统完成迁云。为了以更快速有效的方式应对数据分析需求、强化即时处理数据的效率,国泰在2023年决定将机器学习平台和大数据平台迁移上云,开始盘点地端数据架构、进行上云评估。

目前,金融业在地端环境发展大数据时,最常使用资料仓储和资料湖储存资料。「但两者各有优缺点。」刘皓翔解释,资料仓储在查询和处理资料的速度较快,但无法满足非结构化资料处理需求,且建置成本较高。资料湖则是具有高度弹性,能同时处理结构化、半结构化与非结构化资料,但缺乏处理交易资料的能力,查询和分析资料的效能也不比资料仓储好。

考量到资料仓储和资料湖各自优势,刘浩翔指出,国泰在设计云端资料架构时,决定结合两者特长,包括资料湖的弹性和资料仓储的查询、分析效率,将打造湖仓平台作为核心设计理念。他解释,资料湖仓是建立在资料湖的基础上,融合了资料层、目录层和计算层。而在资料层上,资料湖仓建立了元数据管理,能利用这些元数据来实现资料仓储才具备的单笔写入储存功能。

云端资料湖仓平台架构细节

国泰的现代化数据架构可分为6层,每项资料皆会从资料来源层,流通至资料注入层、资料湖仓层,和资料使用层,最后再到应用层。而资料治理层则是贯穿所有资料管道的底层服务。其中,资料湖仓层和资料使用层,是国泰要在云端环境中构建资料湖仓平台的核心部分。

刘浩翔进一步揭露资料湖仓层和资料使用层的设计主轴。除了采用湖仓平台设计,国泰还有自行研发自动化ETL工具PIGEON,来进行资料处理。透过建置数据字典作为资料来源,开发人员只要输入资料查询和加值逻辑,PIGEON就能自动产生ETL排程。此外,PIGEON也支持事件驱动机制,取代传统以时间排程的触发方式。例如,当资料到档事件发生时,就能即时触发ETL排程,确保资料的新鲜度。

在云端资料湖仓平台中,国泰采用自研发的自动化ETL工具PIGEON来进行资料处理,PIGEON能自动生成资料管道,也支持事件驱动机制。(图片来源:国泰金控)

另外,在资料使用层中包含一套ML平台。刘浩翔表示,这套ML平台包含三大特色,第一,平台包含AI治理功能模组,具有国泰自行开发的负责任AI工具包,能针对AI模型进行评测。第二大特色,平台透过容器化技术,将模型从开发、训练到部署的过程管道化。最后,平台提供模型中心Model Hub,提供多种模型选择,包含云端、地端、开源或闭源模型,也提供标准化API接口,能介接各种服务。Model Hub也提供成本管理功能,协助开发者管控模型使用开销。

资料治理四大原则

在现代化数据架构中,资料治理层贯穿了所有资料管道,包含了统一元数据管理、资料虚拟化、资料共享,和资料分层管理。

为了提升资料管理的效率与安全性,国泰采用了元数据管理平台。「这套解决方案将会是未来云端上的数据治理中的重要基底。」刘浩翔强调,进行元数据管理后,能加速资料调阅与管理,同时做到权限管理和自动化轨迹留存,「未来就有办法回溯资料血缘,了解每个资料取用的上下游脉络。」

另外,刘浩翔提到,在地端环境管理数据时,往往因缺乏能整合不同资料源头的平台,需要经常将资料搬移至集中化储存空间,才能检视所有资料的系统来源。然而,「在某些场景中,搬移资料十分困难,常常造成数据孤岛问题。」刘浩翔说。为了解决这项痛点,国泰运用资料虚拟化技术,透过建立虚拟化中心,快速取得来自不同系统的资料,减少ETL工具的开发成本。同时,透过增加虚拟层,更快完成跨系统间的资料共享。

在资料治理层中,国泰也有进行资料分层管理。当子公司各类系统输入资料至国泰的云端湖仓平台时,资料会经过五个数据分层进行处理,先从暂存数据层进入原始数据层,对资料进行清洗、去敏和加密动作,接著进入数据汇总层,建立资料模型(Data Model),将资料化为通用性较高的资料表,再进入数据加值层,按数据主题产出数据产品的资料市集(Data Mart),例如产出各项风险指标。最后才进到数据服务层,服务业务人员的数据需求。刘浩翔强调,透过数据分层,平台能区隔明码区和暗码区,确保使用资料的人员不会接触到明码区。

云端人才不足,国泰计划3年对内培育200位云端数据人才

在推动上云的过程中,刘浩翔坦言,云端人才短缺,仍是最大痛点,「所有迈向云端的业者都会面临一个问题,就是云端人才到底在哪里?」意识到仅依赖外部招募无法满足人才需求,国泰启动名为「云世代」的培育计划,目标在3年内对内培养出200位云端数据人才。

刘浩翔表示,国泰金控计划每半年会从四间子公司招募40名种子学员,透过系统性课程、期末专题和团体活动,提升种子学员的云端技能和技术应用能力。培训结束后,集团会以总经理为首,邀请50位集团长官、主管共同见证培训结果。

「这项计划绝对是国泰数据成功上云的关键。」刘浩翔强调,若没有及早启动人才培育,即便技术与管理机制完善,缺乏对应的人才支撑,最终仍可能导致计划失败。

「云端和AI息息相关。」刘浩翔期待,国泰迈向云端后,未来能充分利用云端算力和已开发的原生服务,「不仅推动业务成长,还能在AI发展上实现双向赋能,推动业务前进。」