Groq以LPU推论引擎提供全球最快LLM服务

图片来源: 

Groq

2016年便创立的Groq在这几天成为全球AI社群最关注的话题,X上开始出现以Groq LPU推论引擎来执行大型语言模型(LLM)的展示,显示它的执行速度飞快,更有不少人将Groq与ChatGPT作比较,在两个机器人聊天室中输入同样的提示,ChatGPT花了60秒生成了答案,Groq却只花了12秒。

不过,Groq主要开发的并非聊天机器人或模型,而是语言处理单元(Language Processing Unit,LPU)推论引擎(LPU Inference Engine)。

Groq于官网上阐明,该公司的任务是设立生成式AI(GenAI)推论速度的标准,以实现生活上的即时AI应用,所开发的LPU推论引擎为一新型态的端对端处理单元系统,可替诸如AI语言应用等具顺序元件的运算密集应用提供全球最快的推论服务。

现代的AI系统多半是在GPU上执行,而LPU的设计是为了克服LLM在运算密度与记忆体频宽上的两大瓶颈,就LLM而言,其运算能力大过CPU与GPU。

Intuitive Machines共同创办人暨架构长Carlos Perez指出,在新一代的AI晶片新创公司中,Groq以一种完全不同的方法脱颖而出,聚焦于利用编译器技术来最佳化极简而高效能的架构,此一以编译器为优先的设计避开了复杂性,转而追求效率。

Perez说明,Groq架构的核心是个单纯支援平行吞吐量的裸机,如同一个专为机器学习设计的ASIC,但有别于只具备固定功能的ASIC,Groq可利用客制化的编译器来支援不同的模型,流线型架构再加上智慧型编译器令它与众不同。

相较于像是GPU等利用许多元件堆叠而成的AI晶片,可能含有无关的硬体或显得臃肿,Groq则回归基本原则,意识到机器学习的工作负载是关于简单的资料类型及操作,借由消除通用硬体或局部性等概念,最大化其吞吐量与效能。

LPU Inference Engine在推论上究竟有多快?可以从AI应用平台Anyscale对8款不同LLM推论供应商的测试中(下图)看到,在基于700亿参数的模型上,Anyscale于各推论平台上输入了150个请求,同时计算它们每秒所回应的Token数量,而Groq的LPU推论引擎吞吐量即以185个Token,远远领先第二名Anyscale的66个Token。

现阶段Groq支援标准的机器学习框架,包括PyTorch、TensorFlow及ONNX等,但仅用于推论,LPU推论引擎并不支援机器学习训练。Groq欢迎硬体供应商、软体供应商、云端服务供应商或AI加值服务开发商寻求合作,也提供Groq API与Groq Compiler来执行LLM应用,使用者则可直接造访Groq官网来试用其推论能力,目前官网上使用的模型为Llama 2与Mixtral。