Google Cloud
Google Cloud昨(30)日公布最新版云端超级电脑基础服务Hypercomputer,并预览第6代TPU(Tensor Processing Unit)Trillium。
高速运算(Hypercomputing)基础架构Hypercomputer是Google Cloud专为执行AI负载设计,集结AI优化的TPU、CPU与GPU的整合硬体、开源软体而成的依用量计价服务。去年12月公布以TPU v5p为基础的版本后,本周Google Cloud在App Dev & Infrastructure高峰会上,公布以第6代TPU Trillium为基础的新版Hypercomputer,以及超运算相关软、硬体,包括Nvidia H200 Tensor Core GPU的A3 Ultra VM(预览版)和最新丛集Hypercompute Cluster、Google自建Arm处理器Axion为基础的C4A VM,以及最新上线的Jupiter光纤交换网路(optic circuit network fabric)与AI/ML专用的区块储存(block storage)服务Hyperdisk ML。
Google强调,现为预览版的Trillium是当今浮点运算效能最高的TPU,单一TPU丛集提供91 exaflops效能。和去年TPU v5e相较,训练AI模型效能提升4倍,推论吞吐量增加3倍,每颗晶片尖峰运算效能也拉高为4.7倍。而高频记忆体(HBM)容量和晶片间互连频宽都增加为2倍,但同时间能源耗用却少了67%。
HBM容量和频宽增倍让Trillium可更有效运行和训练权重更多与key-value快取更大的模型,像是Gemma 2与Llama 2、或是专用专家混合(mixture of expert,MoE)实作。此外Trillium在运算密集的推论,包括大型扩散模型如Stale Diffusion XL。在单一高频宽低延迟Pod中Trillium以晶片互连技术(interchip interconnect,ICI)最高可扩充到256个晶片,以串连数百pods的上万颗晶片,以Google 13 Petabit/s的Jupiter资料中心网路打造超级电脑,而以Multislice软体,Trillium将可实现几近直线扩充的效能,来训练AI模型。。
在标竿测试上,Trillium执行Gemma 2-27B、MaxText Default-32B及Llama2-70B,效能是TPU v5p的4倍有余,执行Llama 2-7B及Gemma 2-9B则是超过3倍。而以每单位成本效能计算,Trillium是v5e的1.8倍、v5p的2倍,是最具成本效益的TPU。
其他新发布方面,采用Nvidia H200 Tensor Core GPU的A3 Ultra VM,将在11月整合到Google Cloud中,届时将推出丛集Hypercompute Cluster。比起前代的A3 Mega,A3 Ultra VM特色包括GPU对GPU网路频宽增加2倍,LLM推论效能提升为最高2倍。在单一丛集内最高可扩充到数千颗GPU以执行AI和HPC任务。
今天Google Cloud并宣布自家Arm架构Axion CPU为基础的C4A VM服务推出,强调性价比高于别家VM 10%,而比x86 CPU-based VM相比,性价比和能源效率都提升65%和60%,适合执行一般任务如Web或应用伺服器、容器化微服务、开源资料库、记忆体内快取、资料分析、媒体处理及AI推论应用等。
最后,Google Cloud还宣布Jupiter光纤交换网路(optic circuit network fabric)、以及AI/ML专用的区块储存(block storage)服务Hyperdisk ML今天上线。Jupiter光纤交换网路提供原生400 Gb/s连线速度和13.1Pb/s的对分频宽(bisection bandwidth),号称可处理地球上所有视讯影像。4月宣布的区块储存(block storage)服务Hyperdisk ML今天上线,可用于AI及HPC作业的储存需求,资料载入速度更快,一个volume可附加2500 instance,每volume集结传输量达1.2TB/s,是竞争者100倍有余。