【波士頓直擊】堅持不做模型！紅帽CTO親自剖析，GenAI新戰略背後的關鍵

在红帽年会主题演讲后，三位红帽高层，执行长Matt Hicks、技术长Chris Wright（右二）和产品长Ashesh Badani亲自回答全球媒体的提问

在红帽年会主题演讲后，三位红帽高层，红帽执行长Matt Hicks、技术长Chris Wright和产品长Ashesh Badani也亲自回答全球媒体的问答，红帽今年为了瞄准企业大规模GenAI应用浪潮，推出了多项新AI战略和产品，为何红帽坚持不做自己的LLM，在未来的企业GenAI发展中，将如何持续扮演关键角色，像RHEL在企业基础架构的影响力一样。

我们整理了红帽技术长Chris Wright对于自家新GenAI定位和战略的说明。他揭露了如何在GenAI世界中找到自己的新定位，GenAI新战略背后有哪些思考，以及下一步方向又是如何，以下是他现场回答的整理。

红帽的重点是将十多年来努力实现的混合云愿景带入AI领域，有一件事非常重要就是提供「选择」。

各种模型不断出现，感觉每天都有新模型，这是高速创新的速度，这些开源授权的模型，对用户开放，可以自己下载，自己优化硬体，自己决定AI技术堆叠要有多大的弹性，连关键套件都能自己决定，而加速晶片则位于技术堆叠的底层。

红帽在GAI世界的新定位

作业系统背景的红帽，对硬体支援非常熟悉，与云端供应商、硬体晶片供应商有很好的合作伙伴关系。所以，他强调：「将底层硬体和热门模型的软体架构串连起来，是红帽在整个GAI世界中的位置。」

举例来说，为了扩大企业AI落地规模，让不同AI想法实现，红帽今年发表了一款新产品，红帽AI推论伺服器。这套产品架构的上层是各种模型，红帽与不同模型的创立者都有长期合作关系，在他们新版模型第一天发布之前，红帽就可以和他们合作，进行大量优化。红帽与Meta的合作就是一个例子。红帽也和模型供应商合作，在红帽平台上验证业者的模型。Chris Wright在媒体问答中也多次强调，红帽不会自己打造LLM模型。

红帽AI推论伺服器，不只是一款社群可用版本，而是可以用于关键任务的运作环境。这款伺服器也可以说是一套作业系统，核心是Linux，可以用来建构和执行不同的模型。红帽AI推论伺服器是红帽AI产品组合的成员之一，可以部署成一台独立的伺服器，支援不同硬体，也能部署到OpenShift上，也可以部署到第三方的基础设施，灵活度很高。

LLL过去的话题，一直聚焦于超大模型、数兆参数等级的模型，但是，开源或开放模型已经出现了，800亿到4500亿参数等规模的小模型，也证明可以做到很多不输大型语言模型价值的工作。红帽正在优化和压缩这些模型，在不牺牲模型准确性的情况下，更有效率地运用硬体。

各种开源模型不断出现，相互竞争，而且开源模型与大型专用前瞻模型之间的差距越来越小，红帽会将这些开源模型带到规模更小的部署环境，这是一种在执行阶段提高效率的方式，来降低成本。

今年初，开源模型更进一步具备了推理能力，推论时间扩展技术（Inference time scaling）是实现推理能力的关键做法。原本是靠更多资料，更大参数的模型来提高准确性，现在可以扩展、延长推论时间来产生更好的结果，让你可以用更小的模型，像大型模型一样，同样产生高价值的结果。

为了降低Token单位成本，聚焦企业基础架构效能最大化

这么做的代价是，要花更多时间来进行计算，而且过程中，所产生的每一个Token都有成本。为了提供更好的时间扩展能力，需要降低每一个Token的成本，并且从整体角度来思考每一瓦特的Token成本。（编按：一瓦特电力可以产生多少Token，数值越高越好），如何让所有企业都能更有效率，这是红帽关注的领域。去年，红帽关注企业自有的资料，今年也开始关注，如何让企业自有基础架构效能最大化，来降低每一个Token的成本。

可是，许多企业大量投资GPU丛集，设备非常昂贵，却难以将GPU利用率最大化，甚至经常很低。

红帽正对推论的运作流程展开研究，主要有两个关键阶段，一个是运算密集的预填充（ Prefill ）阶段，要对整个上下文资料进行处理。另一个则是解码（Decode）阶段，需要庞大记忆体的来生成一个个Token。

llm-d开源专案要将分散式架构带进LLM

如何将整套系统的内容吞吐能力最大化是提高效能的关键，若能用更好的方式来分散处理不同的请求，就可以大幅提高GPU的利用率。红帽新发表的llm-d专案，就是以推论引擎为核心，利用K8s来执行各种分散式的做法。红帽也与许多重要供应商合作，像是Google、Nvidia等。Chris Wright比喻，就像K8s将分散式架构带进了Linux伺服器，llm-d专案也同样将分散式架构带进了LLM伺服器。

虽然AI代理在2024年受到高度关注，但没有太多企业知道如何在自己的环境中打造AI代理。直到今年，代理AI开始成为企业的现实课题。

两手策略，瞄准瞄准代理AI的未来发展

Chris Wright指出，未来的发展上，红帽的计划是支援代理AI的发展，Red Hat AI将会整合Meta的Llama Stack技术架构和Anthropic推出的MCP协定。这两项先期标准，可以驱动代理AI的部署。

MCP提供了一套标准做法，来连结模型，工具、资源和提示命令，让企业可以将LLM 与任何既有商业所用的工具整合。而Llama Stack则提供了一套平台，让开发者用来建立一套运用模型的应用开发流程，包括了建构、部署和支援一只AI应用执行的整套软体应用架构，也涵盖了模型微调、评估、建模等不同模型运作关键，能打造出一只可部署，也能连结到模型的应用程式。

MCP仍旧不断演化中，安全性将是持续不断的改进过程，MCP下个阶段要开始处理授权的议题。MCP的使用方式将有很大的不一样。红帽自己也正在思考，如何透过MCP，让LLM如何和我们的产品整合。

MCP协定提供三种不同的LLM互动方式，可以和资料、工具或提示等不同类型的资源来互动。Chris Wright观察，目前大多数人聚焦于LLM与工具的互动，工具概念就像是在现有企业应用上叠加一层可以让模型存取的API，已有一些企业开始研究这件事对他们的意义。

就像早期Ansible自动化引擎发展早期，同一项工作，可能有10种不同的自动化方式来实现。同样用MCP存取天气资料，现在也有很多天气MCP伺服器可用。「这正是令人兴奋之处，企业也要学习，什么才是对自己有用的做法。」Chris Wright兴奋地提醒。

【波士顿直击】坚持不做模型！红帽CTO亲自剖析，GenAI新战略背后的关键

红帽在GAI世界的新定位

为了降低Token单位成本，聚焦企业基础架构效能最大化

llm-d开源专案要将分散式架构带进LLM

两手策略，瞄准瞄准代理AI的未来发展