【波士顿直击】坚持不做模型!红帽CTO亲自剖析,GenAI新战略背后的关键

在红帽年会主题演讲后,三位红帽高层,执行长Matt Hicks、技术长Chris Wright(右二)和产品长Ashesh Badani亲自回答全球媒体的提问

在红帽年会主题演讲后,三位红帽高层,红帽执行长Matt Hicks、技术长Chris Wright和产品长Ashesh Badani也亲自回答全球媒体的问答,红帽今年为了瞄准企业大规模GenAI应用浪潮,推出了多项新AI战略和产品,为何红帽坚持不做自己的LLM,在未来的企业GenAI发展中,将如何持续扮演关键角色,像RHEL在企业基础架构的影响力一样。

我们整理了红帽技术长Chris Wright对于自家新GenAI定位和战略的说明。他揭露了如何在GenAI世界中找到自己的新定位,GenAI新战略背后有哪些思考,以及下一步方向又是如何,以下是他现场回答的整理。

红帽的重点是将十多年来努力实现的混合云愿景带入AI领域,有一件事非常重要就是提供「选择」。

各种模型不断出现,感觉每天都有新模型,这是高速创新的速度,这些开源授权的模型,对用户开放,可以自己下载,自己优化硬体,自己决定AI技术堆叠要有多大的弹性,连关键套件都能自己决定,而加速晶片则位于技术堆叠的底层。

红帽在GAI世界的新定位

作业系统背景的红帽,对硬体支援非常熟悉,与云端供应商、硬体晶片供应商有很好的合作伙伴关系。所以,他强调:「将底层硬体和热门模型的软体架构串连起来,是红帽在整个GAI世界中的位置。」

举例来说,为了扩大企业AI落地规模,让不同AI想法实现,红帽今年发表了一款新产品,红帽AI推论伺服器。这套产品架构的上层是各种模型,红帽与不同模型的创立者都有长期合作关系,在他们新版模型第一天发布之前,红帽就可以和他们合作,进行大量优化。红帽与Meta的合作就是一个例子。红帽也和模型供应商合作,在红帽平台上验证业者的模型。Chris Wright在媒体问答中也多次强调,红帽不会自己打造LLM模型。

红帽AI推论伺服器,不只是一款社群可用版本,而是可以用于关键任务的运作环境。这款伺服器也可以说是一套作业系统,核心是Linux,可以用来建构和执行不同的模型。红帽AI推论伺服器是红帽AI产品组合的成员之一,可以部署成一台独立的伺服器,支援不同硬体,也能部署到OpenShift上,也可以部署到第三方的基础设施,灵活度很高。

LLL过去的话题,一直聚焦于超大模型、数兆参数等级的模型,但是,开源或开放模型已经出现了,800亿到4500亿参数等规模的小模型,也证明可以做到很多不输大型语言模型价值的工作。红帽正在优化和压缩这些模型,在不牺牲模型准确性的情况下,更有效率地运用硬体。

各种开源模型不断出现,相互竞争,而且开源模型与大型专用前瞻模型之间的差距越来越小,红帽会将这些开源模型带到规模更小的部署环境,这是一种在执行阶段提高效率的方式,来降低成本。

今年初,开源模型更进一步具备了推理能力,推论时间扩展技术(Inference time scaling)是实现推理能力的关键做法。原本是靠更多资料,更大参数的模型来提高准确性,现在可以扩展、延长推论时间来产生更好的结果,让你可以用更小的模型,像大型模型一样,同样产生高价值的结果。

为了降低Token单位成本,聚焦企业基础架构效能最大化

这么做的代价是,要花更多时间来进行计算,而且过程中,所产生的每一个Token都有成本。为了提供更好的时间扩展能力,需要降低每一个Token的成本,并且从整体角度来思考每一瓦特的Token成本。(编按:一瓦特电力可以产生多少Token,数值越高越好),如何让所有企业都能更有效率,这是红帽关注的领域。去年,红帽关注企业自有的资料,今年也开始关注,如何让企业自有基础架构效能最大化,来降低每一个Token的成本。

可是,许多企业大量投资GPU丛集,设备非常昂贵,却难以将GPU利用率最大化,甚至经常很低。

红帽正对推论的运作流程展开研究,主要有两个关键阶段,一个是运算密集的预填充( Prefill )阶段,要对整个上下文资料进行处理。另一个则是解码(Decode)阶段,需要庞大记忆体的来生成一个个Token。

llm-d开源专案要将分散式架构带进LLM

如何将整套系统的内容吞吐能力最大化是提高效能的关键,若能用更好的方式来分散处理不同的请求,就可以大幅提高GPU的利用率。红帽新发表的llm-d专案,就是以推论引擎为核心,利用K8s来执行各种分散式的做法。红帽也与许多重要供应商合作,像是Google、Nvidia等。Chris Wright比喻,就像K8s将分散式架构带进了Linux伺服器,llm-d专案也同样将分散式架构带进了LLM伺服器。

虽然AI代理在2024年受到高度关注,但没有太多企业知道如何在自己的环境中打造AI代理。直到今年,代理AI开始成为企业的现实课题。

两手策略,瞄准瞄准代理AI的未来发展

Chris Wright指出,未来的发展上,红帽的计划是支援代理AI的发展,Red Hat AI将会整合Meta的Llama Stack技术架构和Anthropic推出的MCP协定。这两项先期标准,可以驱动代理AI的部署。

MCP提供了一套标准做法,来连结模型,工具、资源和提示命令,让企业可以将LLM 与任何既有商业所用的工具整合。而Llama Stack则提供了一套平台,让开发者用来建立一套运用模型的应用开发流程,包括了建构、部署和支援一只AI应用执行的整套软体应用架构,也涵盖了模型微调、评估、建模等不同模型运作关键,能打造出一只可部署,也能连结到模型的应用程式。

MCP仍旧不断演化中,安全性将是持续不断的改进过程,MCP下个阶段要开始处理授权的议题。MCP的使用方式将有很大的不一样。红帽自己也正在思考,如何透过MCP,让LLM如何和我们的产品整合。

MCP协定提供三种不同的LLM互动方式,可以和资料、工具或提示等不同类型的资源来互动。Chris Wright观察,目前大多数人聚焦于LLM与工具的互动,工具概念就像是在现有企业应用上叠加一层可以让模型存取的API,已有一些企业开始研究这件事对他们的意义。

就像早期Ansible自动化引擎发展早期,同一项工作,可能有10种不同的自动化方式来实现。同样用MCP存取天气资料,现在也有很多天气MCP伺服器可用。「这正是令人兴奋之处,企业也要学习,什么才是对自己有用的做法。」Chris Wright兴奋地提醒。