华为芯片，究竟有多牛？（上）

21世纪经济报道记者倪雨晴深圳报道

华为的昇腾，让英伟达黄教主都坐不住了。他公开表示，华为昇腾CloudMatrix 384超节点，部分性能上甚至超过英伟达的产品。

华为的384超节点方案，就像全真七子用剑阵打黄药师，集群一起上，黄药师还真有点招架不住。

海外专业机构SemiAnalysis更是直接点名：384超节点的整体计算能力是英伟达GB200机柜的1.6倍！

在单芯片性能受限、制裁持续的情况下，华为昇腾是真能打，还是“自嗨”？它是如何与英伟达竞争的？国产算力究竟到了什么水平？还有什么差距？

今天，我们就带着这些问题，一口气了解对垒英伟达的国产芯片，昇腾。

和英伟达“掰手腕”

昇腾此前非常低调，它是华为打造的一款AI芯片。它不是拿来打游戏的显卡，也不是电脑中的CPU，而是专门针对AI任务的加速芯片NPU，是一颗纯纯的“AI处理器”。

目前昇腾最主力的产品叫“昇腾910”。但以往的昇腾芯片，更多是作为“备胎”使用的——因为美国断供，英伟达、AMD最高端的芯片买不到，很多厂商只能硬着头皮用国产，而昇腾已经是国产芯片中的佼佼者。

过去几年，昇腾其实主要用在AI“推理”环节，也就是模型训练好之后，用它来支持大模型生成内容、聊天等应用环节。但模型训练？说实话——很少用国产芯片，原因也简单：单卡性能弱、生态不够用、系统稳定性差。

但这一切，在2024年和2025年，彻底变了。

华为把昇腾从一个“能用的备胎”，打造成了“能打的主力”，直接上阵训练出了一流大模型。

这些成绩，不是闭门吹牛，而是写进了实打实的论文里——一款模型，用了8192颗昇腾芯片，训练出1350亿参数的稠密大模型“盘古Ultra”；

另一款，用了6000多颗芯片，训出了7180亿参数的 MoE（混合专家）大模型。

这意味着：用纯国产AI芯片，也能训练出千亿参数的国产大模型。

但是！光能训还不够，训得好，才叫硬实力。

怎么判断“训得好”？有个关键指标叫 MFU，也就是“算力资源利用率”。

说白了就是：有没有把芯片榨干用满？有没有把投入的算力物尽其用？

训练盘古Ultra稠密模型时，MFU超过 50%；在MoE模型中，MFU也达到了 41%，实验室数据甚至超过 45%。

这是什么概念？——属于全球一流水平，跑在行业前列。

训练完还不够，还要看推理谁跑得快。

华为和硅基流动的最新论文，直接把昇腾的384 超节点拉出来，和英伟达的 H100、H800 正面对比：谁在实战部署 DeepSeek-R1 这类大模型时更快、更高效？

结果是：在这场比拼中，昇腾和英伟达H系列差距不大，甚至在算力利用率上拿下全场最佳。

也就是说——至少从 DeepSeek-R1 的推理实战看，昇腾已经可以对标英伟达 H100 这一级别的产品，不输Hopper架构。

追赶速度之快，确实令人惊叹。

那和英伟达最新的 GB200 比呢？

SemiAnalysis 给出了评价：虽然单颗昇腾芯片的性能只有英伟达Blackwell的三分之一，但384 超节点堆了5倍的芯片数量！

最终，整体系统算力反超英伟达 GB200，这已经不是“能替代”的水平，而是“有机会领先”。

那么，昇腾，是怎么做到的？

请听下回分解。

更多内容请下载21财经APP