21世纪经济报道记者倪雨晴 深圳报道
华为的昇腾,让英伟达黄教主都坐不住了。他公开表示,华为昇腾CloudMatrix 384超节点,部分性能上甚至超过英伟达的产品。
华为的384超节点方案,就像全真七子用剑阵打黄药师,集群一起上,黄药师还真有点招架不住。
海外专业机构SemiAnalysis更是直接点名:384超节点的整体计算能力是英伟达GB200机柜的1.6倍!
在单芯片性能受限、制裁持续的情况下,华为昇腾是真能打,还是“自嗨”?它是如何与英伟达竞争的?国产算力究竟到了什么水平?还有什么差距?
今天,我们就带着这些问题,一口气了解对垒英伟达的国产芯片,昇腾。
和英伟达“掰手腕”
昇腾此前非常低调,它是华为打造的一款AI芯片。它不是拿来打游戏的显卡,也不是电脑中的CPU,而是专门针对AI任务的加速芯片NPU,是一颗纯纯的“AI处理器”。
目前昇腾最主力的产品叫“昇腾910”。但以往的昇腾芯片,更多是作为“备胎”使用的——因为美国断供,英伟达、AMD最高端的芯片买不到,很多厂商只能硬着头皮用国产,而昇腾已经是国产芯片中的佼佼者。
过去几年,昇腾其实主要用在AI“推理”环节,也就是模型训练好之后,用它来支持大模型生成内容、聊天等应用环节。但模型训练?说实话——很少用国产芯片,原因也简单:单卡性能弱、生态不够用、系统稳定性差。
但这一切,在2024年和2025年,彻底变了。
华为把昇腾从一个“能用的备胎”,打造成了“能打的主力”,直接上阵训练出了一流大模型。
这些成绩,不是闭门吹牛,而是写进了实打实的论文里——一款模型,用了8192颗昇腾芯片,训练出1350亿参数的稠密大模型“盘古Ultra”;
另一款,用了6000多颗芯片,训出了7180亿参数的 MoE(混合专家)大模型。
这意味着:用纯国产AI芯片,也能训练出千亿参数的国产大模型。
但是!光能训还不够,训得好,才叫硬实力。
怎么判断“训得好”?有个关键指标叫 MFU,也就是“算力资源利用率”。
说白了就是:有没有把芯片榨干用满?有没有把投入的算力物尽其用?
训练盘古Ultra稠密模型时,MFU超过 50%;在MoE模型中,MFU也达到了 41%,实验室数据甚至超过 45%。
这是什么概念?——属于全球一流水平,跑在行业前列。
训练完还不够,还要看推理谁跑得快。
华为和硅基流动的最新论文,直接把昇腾的384 超节点拉出来,和英伟达的 H100、H800 正面对比:谁在实战部署 DeepSeek-R1 这类大模型时更快、更高效?
结果是:在这场比拼中,昇腾和英伟达H系列差距不大,甚至在算力利用率上拿下全场最佳。
也就是说——至少从 DeepSeek-R1 的推理实战看,昇腾已经可以对标英伟达 H100 这一级别的产品,不输Hopper架构。
追赶速度之快,确实令人惊叹。
那和英伟达最新的 GB200 比呢?
SemiAnalysis 给出了评价:虽然单颗昇腾芯片的性能只有英伟达Blackwell的三分之一,但384 超节点堆了5倍的芯片数量!
最终,整体系统算力反超英伟达 GB200,这已经不是“能替代”的水平,而是“有机会领先”。
那么,昇腾,是怎么做到的?
请听下回分解。
更多内容请下载21财经APP