西班牙对外银行采用资料湖仓(Data lake house)和资料网格(Data Mesh)架构打造云端资料平台。平台架构可分为五层,分别有资料注入层、资料储存层、资料治理层、资料处理层,和资料使用层。图片来源/BBVA
西班牙对外银行(BBVA)在2022年底启动了一项大型专案,要花3年,将部署在欧洲和美洲两地的地端资料平台迁移上云。这个专案分三阶段推动,2023年,他们先进行准备作业,包括先在云端上建立新的资料平台。2024年,BBVA开始进行迁移工程,到2025年才正式关闭所有地端的资料平台。
先打造云端资料平台
在第一阶段,BBVA先在云端环境建立新的资料平台。他们采用资料湖仓(Data lake house)和资料网格(Data Mesh)架构打造资料平台。平台架构可分为五层,分别有资料注入层、资料储存层、资料治理层、资料处理层,和资料使用层。
资料注入层的工具可以从多种资料来源撷取资料,传送到资料储存层,一天要处理数万次的资料传输作业。
在资料储存层中,BBVA为了确保云端和地端的资料一致性,采取了分区储存的设计,将依资料可用的成熟度区分四类来储存,分别是登陆区(Landing)、原始区(Raw)、可信任区(Trusted)与可分析区(Curated)。资料分区储存后,再透过云端工具来验证资料。
在储存层验证资料后,资料治理层,会负责整合资料目录,并管理云端和地端的资料存取权限设定。资料处理层,则是专门进行大规模的批次处理,例如IFRS9报表等需要大量运算资源的业务需求。
最后,经过验证处理后的资料会进入资料使用层,提供给资料分析师、资料科学家或业务单位使用。在资料使用层中,BBVA设置了超过250个沙盒环境,每个业务单位都拥有一区独立的沙盒空间,让业务单位的使用者可以在沙盒空间进行分析、查询、制作BI报表,甚至是开发ML服务。
预先清理地端资料平台、争取各国监理机构核准上云
除了打造云端资料平台,BBVA也同时进行预迁移(pre-migration)准备,先在地端资料平台进行资料清理作业,减少实际上云过程中需要迁移的资料量。
BBVA全球资料架构主管Federico Esteban强调,预迁移是整个上云成功关键之一。他解释,预迁移重点要对地端的资料平台进行大规模清理,移除不必要的资料、简化资料处理流程的设计,「透过预迁移,我们成功将迁移范围减少超过40%。」
另外,争取各国监理机构核准上云,也是第一阶段的重要工作。Federico Esteban说,他们付出了极大努力来获得各国监理机构的核准,因为对某些国家而言,尚未有金融机构执行过资料上云的计划。「千万不要低估说服监理机构同意资料平台上云,所需要的工作量。」他强调。
在开始进行平行阶段前,BBVA将所有原本在地端执行的资料处理流程迁移到云端上,他们在云端环境中复制了一套地端环境接收资料的机制,让云地同时接收不同区域的营运系统传送的资料。并且,他们在云端建立一个复制资料区(copy data on premise),运用额外自建的资料传输工具来将地端的资料复制到该区。
BBVA资料平台使用者会先在云端的复制资料区进行测试。等到正式的云端平台资料品质足够稳定后,才会让使用者切换到正式的云端资料平台进行验证。当测试都通过后,BBVA才删除复制资料,正式关闭地端平台,完成整个资料平台迁移计划。图片来源/BBVA
透过地端、云端双平台平行运作进行资料平台迁移
到了2024年,BBVA完成云端资料平台的建置,迈入上云计划第二阶段,开始将地端资料平台迁移至云端。
Federico Esteban强调,整个专案最困难的挑战,不是打造新平台,而是「将所有东西从地端迁移上云,并顺利关闭旧平台。」
BBVA面对的挑战是,发展十多年的地端资料平台,高达4PB资料量、3万多张资料表格,全数都要迁移上云。甚至,BBVA更大的目标是,要尽量降低停机时间来完成资料迁移。但是,BBVA的资料平台平均每月执行超过75万笔资料处理流程,要在流程同步运作的情况下,全数迁移上云,让这项任务更具困难。
他们的地端资料平台分别部署在欧洲地区与美洲地区,欧洲地区需要迁移的资料量达1.7PB,包括14,500张资料表,平台每月执行约40万笔资料处理程序。美洲地区的资料平台规模则达到2.3PB,资料表数量约15,500张,平台每月资料处理作业逼近35万笔。
BBVA先从欧洲地区的资料平台开始著手迁移。在迁移阶段中,最重要且最具挑战的技术工作,是双平台平行作业阶段,地端和云端两套平台同时执行所有流程,直到两边产出相同的结果为止。
在开始进行平行阶段前,BBVA先将所有原本在地端执行的资料处理流程,迁移到云端。具体来说,是在云端环境中复制一套地端环境接收资料的机制,让云地两端同时接收营运系统传送的资料。
Federico Esteban解释,地端资料平台每天都要接收来自不同国家数千个营运系统的资料,集中至主档资料(Master Data)层,平均一天超过一万五千笔传输任务。BBVA在云端环境同样建立一个主档资料层,让这些传输作业可以同时传送到地端和云端环境。
接著,再将4PB的资料量复制到云端环境中,BBVA的做法是将资料复制到一个复制资料区(copy data on premise)的云端区域。接著,BBVA才正式进入平行阶段。
在平行阶段中,BBVA目标要让资料复制任务越快完成越好。因为资料复制的过程中,必须停止地端系统正在运作的流程,来确保资料正确性,所以,才需要尽可能加快资料复制的速度。
Federico Esteban表示,一开始,同时在云端和地端环境运作五万笔资料处理流程,持续一周后,开始出现许多问题,地端和云端的资料不一致,资料品质变差,表格资料也出现错误。
所以,BBVA设定了检核机制。每个周末,重新比对云端和地端的资料是否一致、审核资料品质是否达到一定水准。他们设定至少95%的资料表格完全正确,且所有关键流程都必须正常执行。如果发现错误,他们就会再一次重新复制、同步资料。「每周重复这个步骤,持续了六个月,直到云端与地端的资料结果完全一致。」Federico Esteban说。
盘点了市面上的工具后,BBVA认为现有工具传输速度还不够快,因此,他们采用Amazon EMR和DistCP自建了一套高速资料传输工具,可以在30小时内完整复制超过500TB资料量,每周进行约100TB资料量的增量复制,则仅需要6小时就能完成。
除了工程团队需要定期验证云端与地端的资料一致性外,BBVA的资料平台使用者也必须参与测试。
起初,平台使用者会先在云端的复制资料区进行测试。等到正式的云端平台资料品质足够稳定后,才会让使用者切换到云端最终版本的Master Data趋势进行验证。当测试都通过后,BBVA才删除复制资料,正式关闭地端平台,完成整个资料平台迁移计划。
回想整趟迁移过程,Federico Esteban表示,整套流程看似简单,「其实每个环节都像是独立专案,要花拉的力气来设计和执行。」
BBVA在2024年底宣布完成欧洲地区的资料上云,并关闭了该区的地端资料平台。接著,今年中,BBVA的全球资料工程主管也在社群软体上宣布,他们已经完成美洲地区的地端资料平台上云。