Walmart AI开发平台Elements功能包括ML生命周期各阶段开发工具,以及维运和治理用的管理工具。此平台串接了Walmart云原生开发平台WNCP,以共用IT资源并将百万个AI模型串联到各式零售应用。
如何快速、大规模的开发生成式AI应用,并在上百万AI模型平行执行的情况下顾及治理政策和系统效能?对Walmart来说,他们早在生成式AI时代来临之前,就做好了准备。
Walmart开发生成式AI的4大挑战是:持续高速创新、数据及开发规模庞大、成本控制不易,以及需要严谨的治理政策。零售市场的激烈竞争和世界级的企业规模,这是每一次Walmart拥抱任何科技,都会面临的挑战。
不论是一般AP的开发,到过去几年的AI/ML应用,Walmart不断思考因应这些挑战的方法。其中一项关键策略是,统一25,000名IT人员所需的开发环境和资源调度,透过一站式平台管理超大规模开发的种种面向,包括IT资源、成本、治理政策等,来增加开发效率。
从2015到2019年,Walmart花了四年,从头打造一套云原生开发者平台(Walmart Cloud Native Platform,简称WNCP),采取「三胞胎」云端模型(Triplet model),以容器调度技术为基础,横跨Azure、AWS及Walmart私有云,作为跨云环境及跨开发生态系的抽象层。开发者可以一站式存取3大云端平台的数据处理工具、数十种数据来源、和其他开发工具及资源。此平台也能自动转化程式码,以利自动化部署服务到这3朵云及Walmart自家边缘装置。
这个一站式的开发平台,更为后来Walmart扩大AI/ML应用时,打下良好基础。2021年,他们以WNCP的平台工程及DevOps做法为基础,打造了一套AI/ML开发平台Elements,增加MLOps机制与工具,并与WNCP其他系统和技术原生整合。
这种做法大幅降低了不同专案团队评估开发工具的时间、准备开发环境的时间,以及整体开发和部署时间。Elements上线后,将模型实际落地到商业应用的时间,从2周减少到短短1小时内。
当生成式AI浪潮来临,Walmart便能用行之有年的MLOps原则、机制和工具,以及平台工程经验,来因应前述的4大挑战。他们于Elements新增更多生成式AI开发和治理工具,以及多个LLM和其他不同模态的模型到Elements,以快速发展生成式AI实验及应用。至今,Walmart随时有上百万个ML、AI、生成式AI模型执行,全都靠Elements开发、部署、管理。
用一站式界面和No-code工具降低开发门槛
Elements前端介面是一个以React.js做成的Web启动台,透过微服务及容器架构存取所有Elements甚至WNCP的后端资源。开发人员能于此一站式存取3朵云上的开发工具及运算资源。
这些工具包括可以视觉化建立和管理工作流的DAG设计器、AI专案管理、Python或R的互动式笔记本、批次数据处理任务管理,以及数据集和模型资产管理等。完整ML生命周期的作业,包括数据汇整、数据准备、特征工程、模型训练、模型实验、模型评估、模型部署、模型监控、模型回馈及再训练等,都能利用这些工具完成。
此平台上的开发环境不只服务资料工程师和AI工程师,更针对没有AI背景的开发人员、资料科学家和分析师,提供了一系列No-code AI开发工具,增加他们数据探勘及实验AI应用的能力。
Elements还内建了全平台通用的管理与维运功能,例如成本计算与控管、数据权限管理、程式码版本控制、系统纪录留存、系统异常报警、灾难复原。
Walmart从前端到后端全面整合AI开发相关功能,是希望确保使用者能自由选择最适合的AI开发工具,同时能大规模自动化不同流程、重复使用IT资源、建立统一开发及治理标准,并一站式控管所有相关成本。不只如此,整合所有AI开发的IT资源使用需求,还有机会向云端服务商协商更低的使用费。
打造超大型AI开发平台的9大关键考量
为了一站式支援超大规模的AI模型开发、执行、维运、管理与治理,Walmart打造Walmart平台时,著眼在9大关键考量。3项开发面考量、5项维运需求以及1项治理目标。
在开发面考量上,首先,此平台须涵盖AI开发完整生命周期,包括从数据汇整到模型部署的各个阶段。部署后,还需定期监控模型的公平性和偏差,进行再训练,以避免模型衰退。
第2个考量点是开发工具完整性。Elements支援Python、PySpark、Scala、R和SQL 等程式语言,Jupyter、Theia、PyCharm和RStudio等开发环境,TensorFlow、Keras和 PyTorch等AI/ML 演算法和函式库,以及Grafana和RShiny等报告工具。
有了工具,还需要作为AI开发原料的数据。第3个考量点正是数据可用性,平台必须让使用者能快速存取数十种数据来源,以支援模型训练和推论工作。
第4到第8项维运类需求,则与大规模维运和可用性有关。第4个考量点是规模,平台需能支援数百万个模型平行执行时,这些模型依然维持高效能。第5到第8点分别是成本管理、运算硬体支援、可用性措施及地理位置。
随著数据量和演算法复杂度的增加,平台必须能够保持成本低廉。为了满足大规模运算需求,平台还必须支援多种运算资源,包括CPU、GPU及TPU。
可用性方面,Walmart尤其重视灾难复原能力,确保平台能在多个地理区域和多个服务提供者之间的备援基础设施上运行,以维持高可用性。
地理位置上,Walmart有横跨不同国家的数万间分店和多个IT研发中心,必须同时考量云端基础设施以及边缘设施的设置地点,确保不同区域都有高系统可用性、IT资源使用弹性和灾难复原做法。尤其,需要部署模型在偏远门市时,须追求低功耗、高可用性和低维护需求。
最后一个关键考量点是治理,Walmart希望尽可能用简单且标准化的流程和工具,来管理超大规模AI专案的开发模式、资讯安全和合规性。他们专门制定了一整套AI治理框架,并透过Elements平台来实现此框架的指引。
Walmart AI开发平台的治理框架
AI治理不只是打造Elements平台9大考量的重要一项,更涉及了法遵、道德、企业形象等面向,是Walmart企业治理政策中的重要一环,受到不同部门重视。制定AI与生成式AI治理框架时,Walmart用不同部门的主管及资深人员,组成数据科学治理委员会(Data Science Governance Council),来制定数据及AI相关的道德及负责任指引。
IT及数据团队则以这些指引为基础,在Elements上设计AI治理做法与机制,以强化模型的安全性、透明性及公平性。安全性方面,存取控制机制确保只有经过认证和授权的使用者才能存取数据集、模型或笔记本;加密机制会全面加密静态和动态数据,确保资料的完整性与保密性。责任归属机制则记录了所有素材的拥有者,以在事件发生时快速辨认相关负责人员。
为了进一步提升AI模型的可稽核性,平台提供了全生命周期的稽核功能,确保所有利益相关者能观察模型各个开发阶段的情况。具体做法包括模型性能与健康状的监控仪表板,还有数据飘移及偏差监控机制等,帮助用户即时了解模型的状况,并快速识别出需要再训练的模型。
针对敏感模型,平台设有公平性与偏见监控机制和自动化评估机制,搭配模型可解释性机制,使业务面的相关部门能够更好理解模型的运作原理,增强对AI决策的信任。另外,Walmart还会于开发环境中提供多种模型,让开发者根据模型生成模式,选择任务适合的模型。
随著生成式AI崛起,AI治理的重要性和难度双双提升。正是因为有Elements作为所有AI/ML和生成式AI开发及管理的平台,能一站式进行AI治理,Walmart才有信心,能应用生成式AI到直接面对超大规模消费者的产品,并为AI生成内容负起责任。