AI算力生态裂变,“开放联盟”挑战英伟达:也许走得更远的是华为

本文邀约芯片行业从业15年的J叔,以行业视角解读全球AI算力生态的重要变化。3月底路透社一则并未引起国内关注的简短新闻,其实暗示了全球AI算力生态的演变趋势。

AI未来指北课代表系列——AI大事儿最全、最快拆解

划重点

  • 1 英伟达不只是要面对单纯的技术与商业竞争,而是面临着商业模式竞争与地缘政治角力的双重挑战。
  • 2 曾经在Macintosh和IBM PC间、在Windows和Linux间、在X86和ARM间、在iOS 和Android间上演的剧情,现在又要在AI时代上演了。
  • 3 一个有着计算、网络与存储芯片、超级计算机与自有算力中心、可以自我闭环的英伟达,和一个同样拥有计算、网络与存储能力且集合了业界同盟与多家平台公司的Broadcom,非常类似于Macintosh与Wintel联盟、苹果与Android的故事。
  • 4 在算力产业上,也许走得更远的,是华为。华为很早就通过逆变器切入了光伏产业。某种意义上说,算力的本质是能量。新型能源的高效开发、转化、存储与结构,是算力竞争的底层逻辑。
  • 5 也许在某一天,intel或者AMD会开源部分芯片IP,尤其是关乎到编译器与算子库的部分,毕竟RISC-V在这方面已经占了先机。

文 | 姚金鑫(J叔) 芯片专家、腾讯科技特约作者

编辑 |  郭晓静 腾讯科技

在大模型的淘金浪潮中,卖“铲子”的英伟达却成为了舞台上最闪亮的主角。

它为摩拳擦掌的淘金者准备了所有好用的工具、设计了最便捷的路径。所有“淘金者”都不敢错过英伟达这家“铲子商店”,错过的代价可能是在竞争路上更慢、更弱,从而落后。

市场研究机构Gartner表示,英伟达在全球人工智能芯片市场的市占率预计最高可能已经达到了90%,创下新高纪录,牢牢坐稳AI算力领域的王座。

AI爱英伟达,但是AI也开始“怕”英伟达。

这种“怕”,开始成为英伟达最大的隐忧。AI的市场太大,大到所有人都无法看清楚它的边界。在这个新的商业世界尚未形成之时,英伟达已经创造了巨大的”生态引力“,没人能绕过英伟达的高性能计算,无论大小公司,几乎所有参与者都成为了英伟达的客户,然后成为了其算力生态系统中的一部分。

近几年来,人们逐渐意识到,作为AI时代的基础设施,系统级的AI算力,对于平台级企业的商业利益和大国地缘政治与未来经济至关重要。在这样的态势下,英伟达所构建的竞争壁垒,反而成为其要面临的最大挑战。大型互联网平台企业、云计算公司、AI企业,在担心英伟达抄其后路,传统计算芯片公司与AI芯片创业企业,在努力寻找竞争突破口,中国、中东与欧洲,都在努力扶持自己的AI芯片企业,力图彻底掌握AI时代的主导权 。

当前,中国、英美、欧洲,以及近年来异军突起的中东,是AI的主要地缘玩家。从新质生产力的角度,AI的算力建设成了新时期的军备竞赛,在国家实力允许的条件下,在尘埃落定之前上得了牌桌并成为重要玩家,这本身就具备巨大的价值。我们可以看到,我国将算力与算力网络上升到了国家战略,而中东也通过招商、投资的方式在建设自己的智算产业链。

英伟达不是在进行单纯的技术与商业竞争,而是面临着商业模式竞争与地缘政治角力的双重挑战。除非可以一直保持着量级提升的产品迭代速度,迫使业界与国家在AI产业与AI算力间做取舍,不然英伟达的统治地位必然在彼时动摇。

一、

英伟达的护城河

讨论是否可以非英伟达的算力生态形成,我们要先看清楚英伟达的强大具体在哪几个方面:

● 系统层面:一个典型的计算系统包含三大基石:计算、存储和通信,英伟达在计算、存储与通信技术方面都是行业领先。如果再把产业链当做系统来看,英伟达不仅在技术开发上,而且在产业链上下游的影响力上也是优势突出。

计算:我们对于英伟达的最强印象在于它的GPU,而实际上,在通用计算领域也很强。观察发布的超级计算机系统,其Grace产品作为世界顶级的ARM CPU,搭配其GPU形成的超级计算机,实现了异构计算的超级整合。除此之外,英伟达还具有着相当性能的DPU

存储:姑且不论英伟达在其GPU、CPU上所具备的各级缓存技术,仅仅就其对HBM这一技术的推进与运用,也属于领导级别。这项由AMD会同海力士发起研发的新型存储技术,并未能助力AMD超越英伟达的显卡业务,却很快使得英伟达后来居上,取代AMD而和海力士联合研发,进一步加速了英伟达在AI计算的优势;

通信:在2022年美国更新针对AI芯片的出口管制时,限制的一项指标就是芯片间互联带宽,这具体到英伟达的产品上,主要指的就是NVLink,一种可以将英伟达GPU计算卡连接在一起的技术标准。而在更早之前的2020年,英伟达收购了InfiniBand网络芯片公司Mellanox,从而获得了并行计算中至关重要的网络通讯协议和技术,加强了集群运算能力。后来英伟达的DPU,也是来自于这场收购。有意思的是,Infiniband字面直译的意思是:无限带宽。

上面提到的任意一项单一技术、甚至是产品,可能会有部分创业企业可以努力追赶,可是AI计算作为一个系统级的事情,需要在这三大方面都要追齐,这难度就是三次方;任一方面的缺失,都会在激烈的竞争中处于不利地位。

更何况,英伟达在产业链上、下游的布局、地位和影响力巨大。多年来积累下非常多的IP和重要的技术栈,通过投资与收购,不断扩充着技术优势与前瞻布局。与此同时,其庞大的商业帝国和市场能力,反哺了其在供应链和产能的控制力。更重要的一点是,在一定程度上,英伟达作为AI基础设施属性对AI技术和行业框定了发展的方向,学术界、AI产业界和最终用户所构成的产业生态,是建立在英伟达系统之上的。

● 软件栈层面:英伟达构建的软件系统,是从图形处理到科学计算、从高性能计算到AI计算,是将近花费三十年时间、经历了多次信息计算浪潮所积累的数学库与各种工具。到今时今日不仅可以满足绝大部分的AI与各种科学计算用户需求,其友好且业界熟知的开发平台也深深地吸引着各领域的科研与工程人员。这种由软件栈和工具链所带来的正是为大众所熟知的软件生态优势。

其中最为大众所知晓的 ,就是CUDA及由CUDA构建的生态。而实际上,英伟达还有许多业界趁手的工具,除了广泛用于AI训练、推理和开发以及提供支撑能力的集群管理工具之外,在大模型时代,也及时推出了针对LLM的各种工具与方案。如图是英伟达的AI企业套件:

● 商业层面:所谓生态,本质是建立在商业的互利互惠上的。

自由市场的各企业、机构和开发者,做出决策的唯一理性依据就是是否可以获得商业价值。毫不夸张地说,在AI领域,对于绝大多数通过自由市场获利的企业、机构和开发者来说,英伟达是其最优选项。因此,如何打破商业利益链、重构价值权重,是任何一个试图要挑战领先地位的创新者,都必须要面对和解决的事情。

即便诸如Google、Amazon、Meta、Elon Musk旗下公司,甚至国内的华为、腾讯和字节,虽然都有自己研发AI芯片,但同时都在囤积英伟达算力卡,在英伟达的算力系统与生态中守住并最大可能地拓展自己的AI领地。这实际上是在试图平衡自身AI芯片开发与自身主营业务二者的发展。毕竟,如果为了打磨AI芯片而影响了业务,很可能最终两者都会丢失。放在国家层面上也是一样,这也正是不论中国还是中东,都在大力提倡自主可控的同时,继续大量采购英伟达GPU。

二、科技大厂和初创公司的扰动

AI时代下,科技大厂早早布局,而创业公司也是层出不穷,都在试图有所突破,占据牌桌一席之地。

1. 科技大厂

在这场AI大模型淘金浪潮中,全球科技大厂是绝对的主力,基于对供应链安全及未来的战略布局,我们不断看到科技大厂重金入局“造芯”的消息。目前,Meta、AWS都已经部署了自己的芯片在许多的推理场景下。这也反映了,各家大厂的可能路径,通过场景优势,逐步从推理AI计算向特定场景的训练与通用训练渗透。

但是短期来说,暂时还不会有什么影响。英伟达的产能是非常紧张的,全部产能释放也无法满足市场的需求。从这个角度看,Google即便此刻没有TPU,英伟达也没有更多的产能可以分给Google,这也可以看出,此刻的各家大厂的AI芯片还无法真正对英伟达有实质性的扰动。

但是,从长期来看,任何一家立志成为AGI平台的企业或机构,都意识到了计算系统的重要性。在这里我没有用GPU或者AI芯片来提,是因为这是一个系统级的战略资源。因此,类似于Meta、微软、AWS,甚至是国内的阿里巴巴、字节这样的公司,都会在通用与专用计算芯片、通讯技术与云基础设施上加大投入,并在不久的将来形成竞争基石与优势。

经历了这几年英伟达高端AI芯片的产能紧张,以及大模型和AIGC对算力近乎无上限的需求预期,业界都萌生了自己开设Foundry厂来掌控产能的念头,OpenAI所谓的7万亿投资的逻辑,正在于此。

当然,走的更远的,也许是华为。科技发展的趋势正是用更少的能量,传输、处理和存储更多的信息。训练复杂的AI模型以及将模型部署在实际应用进行推理计算都需要极大的计算资源,这对应着极高的能源消耗,某种意义上说,算力的本质是能量。新型能源的高效开发、转化、存储与结构,是算力竞争的底层逻辑。

我国有着巨大的太阳能储量优势,华为很早就通过逆变器切入了光伏产业,基于这一核心部件构建其在光伏产业的技术和商业生态布局,属于战略制高点,对华为AI算力乃至AI产业的发展至关重要。

2. 英伟达传统竞争对手:AMD和intel

目前市场上关注较多且比较高调的竞争对手AMD。虽然AMD的MI300从SPEC(产品规格)上已经比H100要更强,但是从市场份额来看,仍无法有效挑战英伟达。撼动市场领导者地位的事情,既要靠自己的努力,也要靠对手的犯错,甚至还需要等待大环境的变化。

然而很多目标的达成都不是一蹴而就的,但是可以观察过程。在 2023年10月BIS新规出来之前,事实上在国内的互联网大厂里,已经有三家完成了对AMD芯片的测试验证,有一家开展了相当长一段时间intel/Habana的Gaudi系列产品在推理应用的测试验证。

更早一点,在2022年,多家互联网头部厂商都已经尝试测试、改进华为的产品,来应对可能的算力供应危机。在2023年10月新规之后,AMD项目的推进受到了一定程度的负面影响,而华为的进度被进一步加速,甚至出现了期货产品半年以上交期、价格翻倍的情况。

3. 创业公司

短期来讲,初创公司很难在技术上对英伟达产生多实质威胁,即便业界寄予厚望的光计算、存内计算等新型计算方式,都在其最有优势的领域里尝试着产品落地,但距离产业化还有一段距离。部分人认为,这种不在原有赛道上和英伟达竞争的计算方式,虽然现在较为初级,但潜力巨大,有的一拼。这些公司当前要解决的是不断的造血和存活问题。只有从市场策略和战略上寻求自己合适的定位,通过长久的经营,实现市场占有量与份额的拓展。

● 每年英伟达摆在我们面前的大套餐,并不是其产品和技术方向的全部,而是暂时胜出者,甚至是当前符合英伟达市场节奏的最优解。也就是说,其他创业者所谓的新架构、新技术路线,在英伟达内部也存在,甚至在技术和工程上更深入;

● 即便有创新是英伟达不具备的,其依然可以用自己的人才储备、资金能力以及在产业链中巨大的能量快速赶上。因此,从技术上来讲,只能等英伟达犯错(这对大公司来说其实是常有的事情),创业公司快速突破,迅速积累起自己的护城河(可能是要结合市场策略、战略合作以及场景优势来构建)

● 英伟达不仅仅是在AI芯片和对应的软件栈(比如CUDA、Triton、TensorRT等)上有着领先的优势,更在通讯技术、通用计算以及高端制程上,拥有着技术、工程以及产业链资源上的雄厚积累。AI计算是个系统工程,几个关键环节上,英伟达通过自己的研发工程投入和产业并购,积累了巨大的优势。甚至可以说,英伟达实际上引领了现在AI产业,并在部分领域引领了技术发展与演进方向,这是小创业公司无法比拟的。

这些挑战者面临的问题依然存在,软件栈的成熟度、应用场景的泛化能力、系统级的产品开发与交付能力,有些还要面对产能的困境。从市场上来看,全球范围内,英伟达的产品依然是硬通货,Meta、微软这些互联网巨头已经将今年和明年Q2前的产能锁定。在国内,互联网与平台公司依然在想办法抢购。

但是,AI的市场实在是太、太、太大,场景也足够丰富,英伟达一家是吃不完的,这就给了创业公司市场空间。比如沙特最近就表示将会启动基于Groq的智算中心建设项目,目标就是大规模AI推理计算。中国也在积极鼓励国、央企以及相关企业,将AI场景开放给国内AI芯片创业公司,并在智算中心的建设中,多加考虑产品能力较好的国产AI芯片。

随着时间的推移、AI产业的进一步发展,自由市场将会逐步筛选出真正的佼佼者,来瓜分、挑战甚至逐步替代英伟达,这是科学规律,芯片领域并无特殊。

三、

生态破局希望何在

1. 先来介绍一位隐形的AI芯片大佬。

这家公司,外界对其的讨论几乎和AI算力不相关,似乎是隐形的存在,但是在未来“英伟达”和“非英伟达”的新竞争格局形成的过程中,这家公司不得不被提到,它就是Broadcom。截止写作本文时,还未有文章专门分析过Broadcom在AI算力系统中的真实战略。

Google的TPU和Meta的AI芯片,甚至是国内某AI芯片公司的产品,都或多或少由Broadcom协助设计。

Broadcom的传统优势在网络通信技术,Broadcom在通信协议、底层IP、Phy、Switch以及以太网相关技术和产品上,都属于世界顶级的存在。举例来说,就像赛车的引擎需要高效的燃油系统来输送能量一样,AI系统需要高速的数据传输来快速处理信息,SerDes技术就像是为信息传输打造的高速管道,确保数据能够在芯片内、芯片间快速、稳定地流动。

虽然传统上来说,Broadcom的计算芯片较为弱势。但是近年来积累了相当多的AI 芯片设计经验与各种IP, 结合其在通信技术的绝对优势,以及通过各种收购所具备的数据中心级基础与应用软件(比如收购VMware),使得Broadcom非常有机会通过提供AI芯片设计服务、构建企业与数据中心级软件服务、并加大开放合作,来构建以Broadcom为主导的AI算力系统及生态。

一个有着超级计算芯片、超级计算机与自有算力中心的英伟达、一个可以自我闭环的英伟达,和一个集合了业界同盟与多家平台公司的Broadcom,非常类似于Macintosh与Wintel联盟、苹果与Android的故事。

2. 再来谈谈业内人言必称的CUDA生态(这已经成为英伟达软件生态的代名词了)

在构建生态的路上并无捷径,只能通过把每一项工作都完成好来追赶,面对具备先发优势并且依然在高速发展的英伟达,开放与合作倒是一条有迹可循的路。在计算的历史上,面对Apple的封闭,Win-Tel的联合走出了PC机的硬件生态,进一步地,Linux通过开源,全世界的程序员一起合作,实现了操作系统的三分天下,甚至可以说,ARM的成功,也得益于Linux所构建的开源合作生态,这进一步在移动互联网时代诞生了iOS和Android一封闭一开源的生态系统;

3. 为此我们再来关注一则新闻。

就在英伟达GTC大会刚刚结束后不久,2024年3月底,路透社发布了一则简短的新闻

“高通、谷歌和英特尔等科技公司参与的UXL基金会计划开发一套软件和工具,为多种类型的人工智能加速器芯片提供支持。

这个开源项目旨在让计算机代码能够在任何机器上运行,无论其采用何种芯片和硬件。高通人工智能和机器学习主管Vinesh Sukumar接受采访时表示:‘我们实际上是在向开发者展示如何从英伟达平台迁移出来。’据报道,UXL的最终目标是在长期支持英伟达的硬件和代码。”

短短的几句话中,有两个值得关注的要点,为“多种类型的人工智能加速芯片提供支持”,“向开发者展示如何从英伟达平台迁移出来。”

这个项目的参与者包括以高通、英特尔、谷歌等众多科技公司。 这预示着,巨头公司为了突破英伟达的垄断,开始通过多变合作的方式,开发可为多种不同AI芯片用的软件栈与工具链,构建开放的生态。

也许哪一天,突然爆出一则新闻,Intel或AMD会开放指令集、部分芯片架构与IP,尤其是关乎到编译器与算子优化的硬件部分。这种可能性越来越大了,毕竟,RISC-V已经在这么做了。

曾经在Macintosh和IBM PC机间、在Windows和Linux间、在X86和ARM间、在iOS和Android间上演的剧情,现在又要在AI时代上演了。

未来的某一天,人们会意识到,在AI新商业世界形成的过程中,正是这些举动,推动AI算力的生态,开始裂变为英伟达和非英伟达两个部分。