红帽技术长Chris Wright亲自剖析红帽如何在GenAI世界中找到自己的新定位。(图片来源/红帽)
【波士顿现场直击】
老牌软体公司如何在激烈的生成式AI竞争中,杀出自己的一条路。在红帽今年年会大会第一天主题演讲后,三位红帽最核心的高层,红帽执行长Matt Hicks、技术长Chris Wright和产品长Ashesh Badani亲自回答全球媒体的问答。
红帽今年的新发展战略是,瞄准企业即将兴起的大规模GenAI应用浪潮,推出了多项新AI战略和产品,为何红帽坚持不做自己的LLM,在未来的企业GenAI发展中,将如何持续扮演关键角色,像RHEL在企业基础架构的影响力一样。
我们整理了红帽技术长Chris Wright对于自家新GenAI定位和战略的说明。他揭露了如何在GenAI世界中找到自己的新定位,GenAI新战略背后有哪些思考,以及下一步方向又是如何,以下是他现场回答的整理:
新战略:将混合云愿景带进AI领域提供选择
红帽的重点是将十多年来努力实现的混合云愿景带入AI领域,有一件事非常重要就是提供「选择」。Chris Wright不论在主题演讲或会后媒体团访中,都会先点出「提供选择」的原则,这也是红帽过去发展开源作业系统和容器管理平台一贯的精神。
各种模型不断出现,感觉每天都有新模型,这是高速创新的速度,这些开源授权的模型,对用户开放,可以自己下载,自己优化硬体,自己决定AI技术堆叠要有多大的弹性,连关键套件都能自己决定,而加速晶片则位于技术堆叠的底层。
红帽在GAI世界的新定位
拥有深厚作业系统背景的红帽,对硬体支援非常熟悉,也与云端供应商、硬体晶片供应商有很好的合作伙伴关系。所以,Chris Wright强调:「将底层硬体和热门模型的软体架构串连起来,是红帽在整个GAI世界中的位置。」
举例来说,为了扩大企业AI落地规模,让不同AI想法实现,红帽今年发表了一款新的产品,红帽AI推论伺服器。这套产品架构的上层是各种模型,红帽与不同模型的创立者都有长期合作关系,在他们新版模型第一天发布之前,红帽就可以和他们合作,进行大量优化。红帽与Meta的合作就是一个例子。红帽也和模型供应商合作,在红帽平台上验证业者的模型。
Chris Wright在媒体问答中也多次强调,红帽不会自己打造LLM模型,这一点就和大型云端供应商的发展策略有很大的差异。
红帽AI推论伺服器,不只是一款社群可用版本,而是可以用于关键任务的运作环境。这款伺服器也可以说是一套作业系统,核心是Linux,可以用来建构和执行不同的模型。红帽AI推论伺服器是红帽AI产品组合的成员之一,可以部署成一台独立的伺服器,支援不同硬体,也能部署到OpenShift上,也可以部署到第三方的基础设施,灵活度很高。
LLL过去的话题,一直聚焦于超大模型、数兆参数等级的模型,但是,开源或开放模型已经出现了,800亿到4500亿参数等规模相对较小的模型,也证明可以做到很多不输大型语言模型价值的工作。红帽正在优化和压缩这些模型,在不牺牲模型准确性的情况下,更有效率地运用硬体。
各种开源LLM模型不断出现,相互竞争,而且开源模型与大型、专用领先模型之间的差距越来越小,红帽会将这些开源模型带到规模更小的部署环境,这是一种在执行阶段提高效率的方式,来降低成本。
今年初,开源模型更进一步具备了推理能力,推论时间扩展技术(Inference time scaling)是实现推理能力的关键做法。原本是靠更多资料,更大参数的模型来提高准确性,现在可以扩展、延长推论时间来产生更好的结果,让你可以用更小的模型,像大型模型一样,同样产生高价值的结果。
为了降低Token单位成本,聚焦企业基础架构效能最大化
这么做的代价是,要花更多时间来进行计算,而且过程中,所产生的每一个Token都有成本。为了提供更好的时间扩展能力,需要降低每一个Token的成本,并且从整体角度来思考每一瓦特的Token成本。(编按:指一瓦特电力可以产生多少Token,数值越高越好),如何让所有企业都能更有效率,这是红帽关注的领域。去年,红帽关注企业自有的资料,今年也开始关注,如何让企业自有基础架构效能最大化,来降低每一个Token的成本。
可是,Chris Wright坦言,许多企业大量投资GPU丛集,设备非常昂贵,却难以将GPU的利用率最大化,甚至利用率经常很低。
红帽深入研究模型推论的运作流程,主要瞄准两个关键阶段,一个是运算密集的预填充( Prefill )阶段,要对整个上下文资料进行处理。另一个则是解码(Decode)阶段,需要庞大记忆体的来生成一个个Token。
宣布新开源专案llm-d,将分散式架构带进LLM
如何将整套系统的内容吞吐能力最大化是提高效能的关键,若能用更好的方式来分散处理不同的请求,就可以大幅提高GPU的利用率。红帽新发表的llm-d专案,就是以推论引擎为核心,利用K8s来执行各种分散式的做法。红帽也与许多重要供应商合作,像是Google、Nvidia等。Chris Wright比喻,就像K8s将分散式架构带进了Linux伺服器,llm-d专案也同样将分散式架构带进了LLM伺服器。
虽然AI代理在2024年受到高度关注,但没有太多企业知道如何在自己的环境中打造AI代理。直到今年,代理AI开始成为企业的现实课题。
两手策略,瞄准代理AI的未来发展
Chris Wright指出,未来的发展上,红帽的计划是支援代理AI的发展,Red Hat AI将会整合Meta的Llama Stack技术架构和Anthropic推出的MCP协定。这两项先期标准,可以驱动代理AI的部署。
MCP提供了一套标准做法,来连结模型,工具、资源和提示命令,让企业可以将LLM 与任何既有商业所用的工具整合。而Llama Stack则提供了一套平台,让开发者用来建立一套运用模型的应用开发流程,包括了建构、部署和支援一只AI应用执行的整套软体应用架构,也涵盖了模型微调、评估、建模等不同模型运作关键,能打造出一只可部署,也能连结到模型的应用程式。
MCP仍旧不断演化中,安全性将是持续不断的改进过程,MCP下个阶段要开始处理授权的议题。MCP的使用方式将有很大的不一样。红帽自己也正在思考,如何透过MCP,让LLM如何和我们的产品整合。
MCP协定提供三种不同的LLM互动方式,可以和资料、工具或提示等不同类型的资源来互动。Chris Wright观察,目前大多数人聚焦于LLM与工具的互动,工具概念就像是在现有企业应用上叠加一层可以让模型存取的API,已有一些企业开始研究这件事对他们的意义。
就像早期Ansible自动化引擎发展早期,同一项工作,可能有10种不同的自动化方式来实现。同样用MCP存取天气资料,现在也有很多天气MCP伺服器可用。「这正是令人兴奋之处,企业也要学习,什么才是对自己有用的做法。」Chris Wright兴奋地提醒。