云端重点新闻(2025/3/20~4/15)
这期介绍Google在Next大会最新发表的AI超级电脑技术架构的最新发表之外,也特别介绍了两家大型金融集团的上云成果,一家是日本金融机构日本最大金融集团MUFG(三菱日联银行)采用云端CRM,另一家是英国最大零售银行集团Lloyds打造了一个全集团通用的云端GAI平台
#AI技术架构 #Google产品架构
一张图揭露Google AI超级电脑架构今年有哪些新产品,从硬体层到软体都瞄准AI推论
早在2年前,Google就发表了这个AI Hypercomputer超级电脑架构,整合了效能最佳化的硬体、开放软体与与灵活的消费模式。当年提出这个架构的目标是为了提供AI训练、微调与服务的效率及生产力。这个AI超级电脑架构可说提供了一套AI基础设施,可供企业直接取用,或透过Vertex AI开发平台来调度运用。
在今年Next大会中,AI Hypercomputer从底层硬体、中间开放软体,到上层消费模式都有更新,Google也用一张图来盘点这11项新特色。
在AI超级电脑架构的底层硬体层,除了发表了专为模型推理所设计的第七代TPU处理器Ironwood之外,也推出了两款新的GPU虚拟机器实例,包括了正式上市的A4 VM(Nvidia B200)以及目前处于预览阶段的A4X VM,后者搭载了Nvidia GB200。为了支援AI工作负载需要的超低延迟,Google提供了400G频宽的网路互连和跨云互联,是原本频宽的4倍。可以支援到单一丛集3万颗GPU。另外也针对AI工作负载的资料存取,推出两款新的储存机制上,一像是新的区块储存池服务,称为Hyperdisk Exapools(超磁碟池),可以管理和调度最多数EB的资料量,支援AI丛集每秒高达TB级的资料流量,预计在今年第二季释出预览版。
Google物件储存则推出了用Google档案丛集专案Colossue打造的区域内Rapid Storage(快速储存)服务,透过gRPC串流技术,可以提供低于1毫秒延迟的乱数读写,每秒6TB的资料吞吐量,在单一区域内支援GPU和TPU的资料存取,来支援AI模型训练之用。针对AI工作负载的资料存取,Google也推出两款新的储存机制上,一像是新的区块储存池服务,称为Hyperdisk Exapools(超磁碟池),可以管理和调度最多数EB的资料量,支援AI丛集每秒高达TB级的资料流量,预计在今年第二季释出预览版。在物件储存服务上,推出了用Google档案丛集专案Colossue打造的区域内Rapid Storage(快速储存)服务,透过gRPC串流技术,可以提供低于1毫秒延迟的乱数读写,每秒6TB的资料吞吐量,在单一区域内支援GPU和TPU的资料存取,来支援AI模型训练之用。
不只训练,针对AI推论需求,Google也推出了Cloud Storage Anywhere Cache(云端储存任意地点快取)可以将既有区域云端储存的资料转移到指定云端区域的快取上,进一步减少资料读取的延迟时间和提高吞吐量,例如针对不同地区使用不同的云端区域快取,来提高AIj推论的反应速度。
在AI超级电脑架构中间的开放软体层,最大新特色是发表了云端版Pathways,这是一个由Google DeepMind团队开发的分散式训练和推论平台。Pathways可以拆解生成式AI推论服务处理过程,将高耗运算的prefill(预填入)任务和高耗记忆体的Decode(解码)任务,拆成不同的处理,各自分配不同的运算资源来处理,来优化AI推理的处理。
GKE是不少企业常用于执行模型推论的云端环境之一,Google推出了丛集管理工具Cluster Director升级版,可支援GKE工作负载的管理,像是工作负载配置安排,排程规划等,来支援AI训练耕作负载的调度。GKE更推出了两项支援AI推论的新功能预览版,推论闸道器和推论快速启动器,前者可以用来分配和安排大量AI推论请求的负载平衡,后者则可以依据AI模型特色快速配置需要的GKE环境资源。最后一项软体层新特色是推出可以支援TPU运算的vLLM推论框架,这是一个支援超大吞吐量的快速推论框架,也可使用TPU来计算。
在算力消费模式上,可自动调配工作负载的Google动态工作负载排程器(DWS)服务,也宣布支援加速处理器,可以在Flex Start模式下,调度第五代TPU v5e晶片、第六代TPU晶片Trillium,搭载H200的A3 Ultra虚拟机器、搭载B200的A4虚拟机器等。未来还将支援日历模式,指定日期来调度。DWS更增加了适合长期执行的推论工作负载调度和大范围训练任务的负载调度。
#GAI趋势 #企业需求观察
美银研究:GAI带动AI基础设施三阶段发展,2027年将爆发企业AI需求潮
3月底,美国银行全球研究部(BofA Global Research)在台举办论坛,美银超级研究部门主管Tap Liani观察,「AI基础设施将进入一个持续多年成长的发展周期。」
他剖析,当前AI发展处于基础设施建设的初期,还没看到应用程式。大型云端公司正在打造AI需要的基础设施,是第一阶段,第二阶段则是云端SaaS公司,他们会找到独特的方式运用AI。但「第三阶段才是影响最大的阶段,可能从2027年开始,大量企业要找出适合AI的应用。」像是利用AI来创造新的收入,降低成本,寻找新顾客,寻找新的商业模式等。「第三阶段的基础建设规模,将比现在的规模还要大四到五倍。」
Tap Liani剖析,因为企业不想将自己的数据交给大型云端业者,为了将数据留在内部,必须建立自己的基础设施。未来2、3年,企业会积极开始建立边缘云,将创新和算力带到边缘环境中。从第一阶段到接下来的二、三阶段发展,「AI基础设施将进入一个持续多年成长的发展周期。」
AI基础设施如何降低成本?必须先区分出训练和推论的不同,训练不是节省成本最多的阶段,推论才是。「AI推论更适合企业的应用,如果推论成本可以降低9成,甚至更高,将加快推论应用的部署,进而加速企业采用GAI。」Tap Liani观察。
从今年GTC主题演讲揭露的数据,光是四大公云业者在2025年就订了高达360万张新一代Blackwell GPU卡,比2024年的前一代Hopper GPU订购量130万张,多了快三倍。这个数据呼应了美银超级研究部门主管的观察,当前处于第一阶段的发展,大型云端积极投入AI基础设施的建置。等到第三阶段,企业大量采用后,知名研究机构如Dell’Oro也曾预测,2028年全球AI资料中心的资本投资规模将高达1兆美元。
#AI推论 #TPU晶片
Google推出第一款瞄准推论AI需求的TPU
刚4月初刚结束的Google年度大会Next,官方统计多达229项宣布,涵盖了GAI在不同层面的应用需求,从云端AI基础架构,到地端GAI部署,推出了多款更强更多模态内容生成的AI模型升级,也涵盖了后端服务、资料服务到前端GAI开发的辅助,更发表了一系列办公室生产力套件的GAI升级版本。
第一个值得关注的重大新产品是Google Cloud推出第一款瞄准推论AI需求的TPU处理器Ironwood。这是第七代TPU处理器,主要针对大规模推论需求而设计,尤其可用于思考型的模型,像是大型语言模型,进阶推理任务的模型或是采取混合专家模型架构的LLM。
Google云目前提供了两款规模的Ironwood工作负载,一种是256颗TPU的规模,另一个是9,216颗TPU的丛集。这款新TPU单一晶片可以提供最高4,614 TFlops的运算能力,9,216颗TPU的丛集可以提供到42.5 EFlops的算力,是现在世界最强超级电脑El Capitan算力的24倍以上。Ironwood采取液体冷却设计,每瓦提供的算力是去年第六代TPU的2倍。
为了支援如此庞大的算力计算,Google Cloud也搭配使用了DeepMind团队开发的ML分散式计算框架Pathways,可以将数十万个Ironwood晶片组合在一起进行分散式运算。
不只自家开发的TPU,在AI算力支援上,Google Cloud先前就宣布将提供搭载Nvidia B200和GB200两款GPU的 A4和A4X虚拟机器,Google会成为Nvidia新一代GPU架构晶片Vera Rubin GPU的第一家云端供应商。
#落地部署 #Gemini
Google最强GAI模型Gemini终于支援落地部署了!今年第三季释出公开预览版
另一个值得注意的GAI模型重大宣布是,Google Cloud最强大的Gemini模型,开始支援落地部署方式,可以部署到企业内部的Google分散式云端(GDC)伺服器上,不用连上网际网路也能提供GAI模型推论。可以提供单一伺服器的部署,也能支援到数百个机柜规模的落地部署。Gemini模型可以部署到采用Nvidia Blackwell架构GPU的系统,目前先支援戴尔的DGX B200和HGX B200系统。在本地端GDC执行的Gemini模型,可以处理百万等级的上下文,也能具备多模态,处理文字、图片、声音和影音等不同资料格式,支援超过100种语言。在GDC上的Gemini运作,安全等级可以提供到美国政府机密与最高机密等级任务的强度。
不只Gemini,今年第三季,AI代理服务Google Agentspace搜寻服务,也会推出可以落地部署到GDC伺服器的版本,预建多款AI代理,也能自制。可以支援企业内部的对话式资料搜寻,透过预设的资料连结器,能存取企业多款软体系统上的内部资料,如Confluence、Jira、ServiceNow和Sharepoint等。本地端部署的Agentspace支援权限感知功能,可依据存取控制清单,来确保搜寻结果的合规和可用权限。
#金融导入SaaS #客户关系管理
日本最大金融集团导入SaaS版CRM,提供单一顾客视图支援2万6千名业务员
日本最大金融集团MUFG(三菱日联银行)宣布今年4月将启用新一代CRM,提供旗下各分行超过2万6千名业务人员。为了有能力快速更新与提高扩充性,三菱日联银行导入SaaS云端版CRM,导入Salesforce的金融云服务,来取代内部地端部署方式。
新版CRM最大特色是可以集中集团内部和外部的所有顾客数据,在单一画面上呈现出顾客的完整视图,让业务人员更了解顾客来提出建议。另外也提供了销售人员的AI推荐功能,可以自动针对每一个顾客提供客制化的金融业务建议方案,来加快业务人员的速度。新版CRM特别强化对新手业务人员的辅助,协助他们与顾客的联系和接触时,可以更快做出反应,来提高销售效率和成功率。三菱日联银行导入后,将持续聚焦于提高AI推荐客制化方案的准确性。
早在今年一月,
博通在4月10日发布的ESXi 8.0版更新3e版本的说明文件中,在最新消息提到,这款VMware vSphere Hypervisor 8是一个入门级的虚拟机器管理版本,从这个版本开始,可以从博通支援入口网站上免费下载。不过,目前在中文版ESXi 8.0发布说明中,还没提到这点。 ESXi 8.0e这个版本不是直接开放下载,使用者需先在博通支援入口网站注册后才能免费下载。
更多新闻
- 国际能源署IEA预测,全球资料中心到2030年的用电量将增加一倍以上,AI为最大驱动力
- 微软扩充.NET Aspire部署能力,标准化应用开发到多云部署流程
责任编辑:王宏仁