【re:Invent 2024现场直击】AWS揭Bedrock AI推论加速功能,Anthropic共同创办人现身说法

AWS公用运算部门资深副总裁Peter DeSantis在今年年会首场主题演讲中,揭露全托管AI平台Amazon Bedrock的AI推论加速新功能预览版。

图片来源: 

摄影/王若朴

AWS re:Invent 2024技术年会于美西时间12月1日展开,其公用运算部门(Utility Computing)资深副总裁Peter DeSantis在晚间首场主题演讲中,揭露全托管AI平台Amazon Bedrock的AI推论加速新功能,主打降低延迟、提高效能,比如使用自家AI加速晶片Trainium 2驱动的Trn 2执行Llama 3.1 405B模型推论,只需3.9秒就能处理1万个Token的输入值、产出100个Token,号称比Google的13.9秒、微软的6.2秒还要快。

不只Llama 3.1模型可加速,AI新创Anthropic共同创办人暨运算长Tom Brown也现身说法,他们与AWS联手设计Bedrock推论加速功能,能将Anthropic最新模型Claude 3.5 Haiku的推论时间加速60%,比其他任何平台都还要快,即日起使用者即可透过API使用该功能。他也揭露,接下来将以数十万颗Trainium 2训练下一代Claude模型。

瞄准大语言模型需求,优化硬体打造预览版Bedrock AI推论低延迟功能

进一步来说,AWS Bedrock是一款无伺服器的全托管AI平台,使用者可透过API,存取Amazon自家和Meta、Anthropic或Stability AI等第三方基础模型,来满足业务需求。

Bedrock加速AI推论的关键,离不开硬体优化。在去年re:Invent大会中,AWS揭露自研AI加速晶片Trainium 2和Arm架构的Graviton 4处理器,现在还进一步发展出Trainium 2 UltraServer主机,包括了2个机柜、4台伺服器和64个以NeronLink高速连接的Trainium 2加速器,来提供单一高效能执行个体。(如下图)

DeSantis补充,这台Trainium 2 UltraServer能分别提供高达83.2 pflops和332.8 pflops的密集与稀疏运算效能,且具6TB的高频宽记忆体(HBM),并在现场展示。(如下图)

他还表示,这台主机适合用来训练兆级参数的大模型。

除了训练需要强大算力,大模型的推论也需要强大算力支援,尤其目前出现越来越多仰赖多AI代理的工作流程,需要更快产出结果。

于是,在AWS的硬体优势上,他们今年推出Bedrock AI推论低延迟功能(预览版),能加速Llama 3.1 70B和405B等2种参数模型。他们测试,使用自家Trainium 2加速晶片执行405B参数的Llama 3.1模型推论,只需3.9秒就能对1万个Token的输入值,产出100个Token,号称比Google的13.9秒、微软的6.2秒还要快。(如下图)

Claude 3.5 Haiku模型也加速推论,Anthropic还要用数十万颗Trainium 2训练新模型

不只是Llama模型,Anthropic也与AWS联手开发推论加速功能,将Claude 3.5 Haiku小模型的推论时间加快了60%,「比其他任何平台都还要快,」Tom Brown说。

他说明,要加速模型推论,不只是硬体规格要够好,关键是主机中的收缩阵列(Systolic Arrays)要时时发挥作用。也就是说,收缩阵列要能持续依序接收模型输入值,而不是卡住、得等待输入值从记忆体或其他地方送进来,「就好比玩俄罗斯方块一样,方块结合得越紧密就越有效率、成本也越低,」他比喻。

在与AWS解决这个问题的过程中,Anthropic发现,Trainium 2晶片的设计,非常适合执行低阶程式语言,而且还能记录系统中每条指令的执行时间。这意味著,开发者可以清楚知道,收缩阵列何时工作、何时卡住,以及为何卡住,让核心(Kernel)程式的开发更快更简单。

也因为Trainium 2晶片的这个优点,Tom Brown更透露,他们新一代的Claude模型,将用包含数十万个Trainium 2晶片的Project Rainer来训练,「这个丛集规模是我们所使用过的5倍之大。」这意味著,Anthropic的开发速度将更快,而Claude模型使用者,则能以更便宜的价格使用更聪明的模型,甚至是AI代理,来执行更重要的专案。