AWS执行长Matt Garman今日揭露运算新亮点,包括3款EC2执行个体:P6系列、Trn2和Trn2 UltraServer,后者可供兆级参数的大模型训练。另外,AWS明年将推出下一代自研GAI加速晶片Trainium3。
摄影/王若朴
AWS执行长Matt Garman在今年度re:Invent 2024技术年会中揭露运算新亮点,包括由Nvidia Blackwell GPU驱动的P6系列EC2执行个体、Amazon EC2 Trn2执行个体、Trn2 UltraServer执行个体,都是为生成式AI(GAI)专门设计,可提供更快更有效率的算力。
Matt Garman还透露,AWS正与AI新创Anthropic共同开发Project Rainier,也就是由数十万颗Trainium2组成的UltraServer运算丛集。他也预告,明年将推出新一代Trainium3自研GAI加速晶片。
专为生成式AI设计的执行个体和下一代GAI加速晶片
在今日主题演讲中,Matt Garman点出,运算、储存、资料库和AI推论,是AWS发展策略的4大重要基石。而就运算来说,AWS每年都有新进展,比如最早推出的EC2执行个体(编按:执行个体是指在云端环境中执行的虚拟机器)、去年年会揭露的Nitro系统、后来问世的Graviton4处理器,但,「今日,运算面临的最大问题是AI,特别是生成式AI。」
Matt Garman说明,目前绝大多数的AI应用,都仰赖GPU算力,而AWS又是提供执行GPU工作负载的环境。「AWS与Nvidia已合作14年,开发不少算力强大的执行个体,」在这个基础上,Matt Garman今日揭露与Nvidia联手开发的P6系列EC2执行个体,采用Nvidia最新Blackwell GPU,将于2025年上市,预计提供比目前GPU执行个体快上2.5倍的运算能力。(如下图)
不只P6,AWS今日也正式推出采用自研AI加速晶片Trainuim2的EC2执行个体:Amazon EC2 Trn2 Instances,专为生成式AI和深度学习设计。这个执行个体的效能,可比目前的GPU EC2执行个体好上3到4成。(如下图)
其中,单一个Trn2执行个体由16个Trainium2晶片组成,由NeuronLink高频宽高速连接,可提供低延迟的20.8 pflops算力,适合用来训练和部署数十亿参数的模型。
但如果AI模型更大,需要更多算力呢?
Matt Garman说,今日揭露的Amazon EC2 Trn2 UltraServers执行个体预览版,就能满足大模型训练和部署需求。这个Trn2 UltraServers由4个Trn2执行个体组成,一样以NeuronLink高速连接,搭载64颗Trainium2晶片,可提供83.2 pflops和332.8 pflops的密集与稀疏运算效能。(如下图)
(图片来源:AWS)
这个Trn2 UltraServer执行个体,适合用来训练兆级参数的大模型。
Matt Garman也揭露,AWS联手AI新创Anthropic,正共同打造名为Project Rainier的Trainium2 UltraServer运算丛集,预计使用数十万颗Trainium2晶片,将提供5倍Anthropic目前用来训练模型的算力。AWS预计,Project Rainier届时将成为世界上最大的AI运算丛集。
关于AWS运算基石的更新,还不只如此。
Matt Garman预告,明年AWS将推出新一代自研AI加速晶片Trainium3,专门为GAI设计。「这将是AWS第一款采用3奈米制程节点,将提供比Trainuim2高出2倍的算力,效能还提高40%。」