人工智慧的重要性不言可喻,于是有了「得AI者,得天下」的论调,然而,该如何「得AI」?很多人会马上想到资料、运算能力、软体、AI模型等因素,网路存取能力与效率,很少排在前面的考量。
随著GPU大厂Nvidia持续垄断AI硬体的技术应用话题,大家都想找到他们称霸市场的答案,其中,活用Nvidia自家GPU加速机制的统一运算架构(CUDA),以及软硬体堆叠改良、扩充与普及,是最常见的回答。
不过,这几年以来,虽然有越来越多厂商投入AI软硬体研发,搭配方式与选择理应日益丰富,但为何市场还是非常看好与看重Nvidia的发展?除了他们能提供相对清楚、有序的硬体产品发展蓝图,持续锁定企业应用需求的软体平台,过去一直被整个业界低估的部分,主要是他们对网路技术的布局,近期随著多家IT厂商组成的超乙太网路联盟(UEC)成军,也突显整个IT产业发展盲点,那就是对于资料中心网路的不够重视。
回顾2020年Nvidia完成并购资料中心网路设备大厂Mellanox,但他们并不急著大举扩张网路产品线,局部参与软体定义网路(SDN)与网路功能虚拟化(NFV)的发展,但未投入大量身家进军电信网路转型市场,而是思考如何将这些技术融入GPU加速应用领域。
另一方面,当伺服器厂商起初仅愿意提供GPU伺服器,透过强调加速器硬体搭配的准系统,想要测试市场需求水温之际,Nvidia决定一马当先,推出自有品牌整合式AI系统伺服器DGX系列,而在历经多个GPU架构世代的变革,如今也已培养出足以支撑整个AI资料中心运作的生态系,涵盖伺服器、储存系统,网路则是最后一块拼图。
2023年5月底Nvidia在台北国际电脑展宣布推出乙太网路加速平台Spectrum-X,正式将乙太网路产品线投入AI产品组合当中,涵盖网路交换器、资料处理器、光纤网路线材与收发器,以及网路作业系统与软体开发套件,力图打造新一代高效率乙太网路,能够充分满足AI云端服务环境网路所需,并且预告他们手上另一条InfiniBand网路产品线,将用于支援更大规模的GPU系统丛集,实现Nvidia提出的企业AI工厂愿景。
相较之下,其他同时握有AI加速运算技术的大型IT厂商,长期观望AI市场的发展,心力大多还是放在主力的伺服器处理器,但市场动能目前仍然更关注GPU,而非CPU,近才开始急起直追,但众声喧哗,能否尽快提出令所有成员都支持的标准,令人担忧。
例如,英特尔透过第四代Xeon Scalable内建的进阶矩阵延伸指令集(AMX),以及不同用途的硬体加速器,想要吃下这块市场。
虽然英特尔曾发展与推出Data Center GPU Max系列,但后来又改弦易张,把希望寄托在下一代GPU架构Falcon Shore。而英特尔另一个近期被业界看好的AI加速器Gaudi 3,虽然在2024年4月推出,但搭配这款运算平台的伺服器产品,9月陆续上市,影响力尚未发酵。
此外,英特尔乙太网路产品与基础架构处理器(IPU)并未在该公司AI布局,发挥应有的加乘效果,而且,产品未来发展态势不明。看来只能指望作为超乙太网路联盟发起者之一的英特尔,在2025年能有更多著墨。
至于AMD,在资料中心产品线的经营上,长期以EPYC系列处理器的发展为重,等到Instinct MI100系列GPU推出之后,他们对于整个加速运算平台的架构,才逐渐取得能与Nvidia AI相提并论的条件,而在网路技术的布局上,2022年陆续完成赛灵思(Xilinx)、Pensando的并购,取得FPGA加速、智慧型网路卡、资料处理器等技术,前两种解决方案有部分支援AI应用,资料处理器则是推广云端服务业者采用,但随著超乙太网路联盟的成立,AMD决定用Pensando产品线支撑这部分用途,在2024年10月宣布推出AI网路卡Pollara 400,以及第三代资料处理器Salina,他们表示,Pollara 400将与AMD处理器、GPU的产品发展蓝图保持一致。不过,目前来看,AMD自家伺服器等级CPU与GPU对于SmartNIC的搭配方式,还需揭露更多资讯。
除了英特尔、AMD,博通(Broadcom)也被寄予厚望,因为他们提供网路卡、交换器、ASIC晶片,企业市占相当高的伺服器虚拟化平台vSphere,也是他们推动AI的杀手应用,而且是各家AI软硬体极力拉拢的重要平台,究竟谁能夺下AI市场,还有许多变化。