【re:Invent 2024現場直擊】AWS執行長揭運算服務新亮點，專為GAI設計推P6、Trn2和Trn2 UltraServer執行個體

AWS执行长Matt Garman今日揭露运算新亮点，包括3款EC2执行个体：P6系列、Trn2和Trn2 UltraServer，后者可供兆级参数的大模型训练。另外，AWS明年将推出下一代自研GAI加速晶片Trainium3。

图片来源:

摄影／王若朴

AWS执行长Matt Garman在今年度re:Invent 2024技术年会中揭露运算新亮点，包括由Nvidia Blackwell GPU驱动的P6系列EC2执行个体、Amazon EC2 Trn2执行个体、Trn2 UltraServer执行个体，都是为生成式AI（GAI）专门设计，可提供更快更有效率的算力。

Matt Garman还透露，AWS正与AI新创Anthropic共同开发Project Rainier，也就是由数十万颗Trainium2组成的UltraServer运算丛集。他也预告，明年将推出新一代Trainium3自研GAI加速晶片。

专为生成式AI设计的执行个体和下一代GAI加速晶片

在今日主题演讲中，Matt Garman点出，运算、储存、资料库和AI推论，是AWS发展策略的4大重要基石。而就运算来说，AWS每年都有新进展，比如最早推出的EC2执行个体（编按：执行个体是指在云端环境中执行的虚拟机器）、去年年会揭露的Nitro系统、后来问世的Graviton4处理器，但，「今日，运算面临的最大问题是AI，特别是生成式AI。」

Matt Garman说明，目前绝大多数的AI应用，都仰赖GPU算力，而AWS又是提供执行GPU工作负载的环境。「AWS与Nvidia已合作14年，开发不少算力强大的执行个体，」在这个基础上，Matt Garman今日揭露与Nvidia联手开发的P6系列EC2执行个体，采用Nvidia最新Blackwell GPU，将于2025年上市，预计提供比目前GPU执行个体快上2.5倍的运算能力。（如下图）

不只P6，AWS今日也正式推出采用自研AI加速晶片Trainuim2的EC2执行个体：Amazon EC2 Trn2 Instances，专为生成式AI和深度学习设计。这个执行个体的效能，可比目前的GPU EC2执行个体好上3到4成。（如下图）

其中，单一个Trn2执行个体由16个Trainium2晶片组成，由NeuronLink高频宽高速连接，可提供低延迟的20.8 pflops算力，适合用来训练和部署数十亿参数的模型。

但如果AI模型更大，需要更多算力呢？

Matt Garman说，今日揭露的Amazon EC2 Trn2 UltraServers执行个体预览版，就能满足大模型训练和部署需求。这个Trn2 UltraServers由4个Trn2执行个体组成，一样以NeuronLink高速连接，搭载64颗Trainium2晶片，可提供83.2 pflops和332.8 pflops的密集与稀疏运算效能。（如下图）

（图片来源：AWS）

这个Trn2 UltraServer执行个体，适合用来训练兆级参数的大模型。

Matt Garman也揭露，AWS联手AI新创Anthropic，正共同打造名为Project Rainier的Trainium2 UltraServer运算丛集，预计使用数十万颗Trainium2晶片，将提供5倍Anthropic目前用来训练模型的算力。AWS预计，Project Rainier届时将成为世界上最大的AI运算丛集。

关于AWS运算基石的更新，还不只如此。

Matt Garman预告，明年AWS将推出新一代自研AI加速晶片Trainium3，专门为GAI设计。「这将是AWS第一款采用3奈米制程节点，将提供比Trainuim2高出2倍的算力，效能还提高40%。」

【re:Invent 2024现场直击】AWS执行长揭运算服务新亮点，专为GAI设计推P6、Trn2和Trn2 UltraServer执行个体