Cerebras發表Cerebras Inference，號稱全球最快AI推論解決方案

图片来源:

Cerebras

专门开发AI运算系统的Cerebras Systems周二（8/27）发表了AI推论解决方案Cerebras Inference，它在Llama 3.1 8B模型上每秒可生成1,800个Token，在Llama 3.1 70B模型上每秒可生成450个Token，号称是全球最快的AI推论解决方案，比基于Nvidia GPU的大型云端解决方案快上20倍，但价格只需1/5，性价比高达100倍。

Cerebras Inference奠基在第三代AI加速系统Cerebras CS-3，该系统的核心为第三代AI晶圆级处理器Wafer Scale Engine 3（WSE-3）。

Cerebras曾经比较过WSE-3与Nvidia H100，指出WSE-3的晶片尺寸是H100的57倍，核心数量是H100的52倍，晶片记忆体是H100的800倍，记忆体频宽更是H100的7,000倍；也曾比较Cerebras CS-3与Nvidia B200，显示CS-3的表现同样大幅胜过B200。

目前Cerebras已被视为少数能与Nvidia匹敌的竞争对手，并已计划于今年下半年首次公开发行股票。

刚上线的Cerebras Inference有免费版、开发者版及企业版，目前其免费版很慷慨地提供了每日10万次的免费推论；开发者版在Llama 3.1 8B与Llama 3.1 70B模型上每生成100万个Token的价格分别是0.1美元与0.6美元；而提供微调、客制化服务及专门支援的企业版则可直接联系Cerebras以议价。

Cerebras还比较了Cerebras Inference以及各大主要AI云端服务在基于Llama 3.1 8B模型的性能表现，发现它以每秒生成1,800个Token的速度，远远领先Groq的750个、Fireworks AI的257个、together.ai的225个、perplexity的165个、OctoAI的164个、AWS的93个，以及Azure的79个。

提供独立AI基准测试的Artificial Analysis执行长Micah Hill-Smith指出，Cerebras在AI推论基准测试上领先群伦，它与GPU解决方案根本是不同等级，此外，Cerebras Inference上的Llama 3.1 8B/70B达到与Meta官方一样的16bit精度成果，对于有即时及高容量要求的AI应用开发者而言特别有吸引力。

此外，推论是AI运算中成长最快的领域，约占整体AI硬体市场的70%。Cerebras形容，每秒可生成上千Token的高速推论，堪比宽频网路的问世，预告了AI应用的新时代，让开发人员能够建置需要复杂、多步骤并即时执行任务的新一代AI应用。

Cerebras发表Cerebras Inference，号称全球最快AI推论解决方案