之争:年内上线超百万卡集群OR三年内不太可能破30万卡尊龙凯时app多家头部公司老总详解算力“军备竞赛”规模
多位受访者表示○▷▽=,一个万卡集群的智算中心与传统数据中心相比…▼◁,能耗成倍增长△□-▷▽☆,甚至达到十倍级◆••★…。
张永健认为•◁▷■,算力焦虑的本质是人类对AI能力的无尽追求与物理世界资源限制之间的矛盾▷★▷◇★。今天可能觉得万卡很庞•▽,但明天为了训练更复杂的模型○-◇◁◁,又或许会需要百万卡集群△-。需求总是在被满足的同时△☆◁…•,又被激发到新高度△△●★。
在张东看来☆☆…○,一方面是芯片本身的能力有限●△■◆•◆,另一方面▼◆◇,随着卡的数量不断增加▷▲-,软件的线性比(即软件能否完美利用更多硬件资源的比率○□…●•◁,越接近1越好)会下降…•★★,这意味着到某个点以后若再增加卡◇○,性能并不会上升△▷•□=△,还有可能下降•△▷。
但多位受访者都认为◁★●☆,其商业化落地还十分遥远=▲★▽◆。张永健说◇★••,从技术成熟度来说○=▪,它对新型存储介质▪▲=、电路设计○▲…□☆●、制造工艺都提出了极高要求尊龙凯时官方app下载-◇△=•,目前仍处于实验室和早期原型阶段-★□▪。与此同时•…●-◁,现有软件生态无法直接复用•◆◁…,应用场景上存算体能否高效处理通用的大模型训练任务★▽◆▷,仍是一个未知数▼▼•△。
问及下一代算力基础设施的突破方向●★•,张东■★▼…□◇、周韬◁=△、北大研究院研究员孙仲等多位受访者认为●•●□,首先还是应该从硬件去突破▼•…▪◁◁。换句话说◁=▲▪,在AI算力竞赛远未结束的情况下◇=,还是要提高单芯片的能力★…。
有观点认为◁▷▲◆,存算一体的芯片有望能从根本上缓解大规模集群的能耗和散热问题■◁。张永健说▼◆=□••,由于当前数据需要在存储单元和计算单元之间频繁搬运▲••,耗时耗能▷△。存算体通过在存储器内部完成计算☆•▷,可极大减少数据搬运☆…▼○,理论上能带来几个数量级的能效提升…▷。对于万卡集群这种数据搬运极为密集的场景来说▽◇○△○,吸引力巨大…▼。
华为数据中心能源副总裁张帆告诉每经记者△☆•□-▷,集群规模大了之后□★△▼,功率密度变大☆▲,单个芯片散热量很大□○•☆●▪,超过一定程度风就带不走热量•△,就需要有液冷方式☆…•。
问及不同厂家的GPU是否可以混插★▽▼=★=,吕乐表示▪◇•●,过去不行●■▽,不过现在通过统一OISA协议◇□▼,可以把不同厂家的接口■☆-◆▲•、PCle(高速串行总线标准)…▲▼、CXL(高速互联协议)底层协议全部打通◁…○▷,包括昆仑芯▲△◇☆、摩尔线程等的芯片都可以集成到同一机柜里◁▽,实现高密度▽★=•▪□、异构部署■▲=●。
所谓绿电直连就是指光伏◇★=、风电等绿色电源项目◆◁▲★,把几十张甚至几百张卡连接起来集成在一个大机柜里▽▷,张永健说•…•,公司到年底前将上线万张GPU☆△☆□▪▷,当冷却液达到60摄氏度时就会变为气体将热量带走-…,整体性能可对标甚至超越GB200NVL72系统(的多节点液冷机架级扩展系统)★=△▽-?
浸没式液冷可以把整个机器所有部件都浸没△○,因此□★■★•▲,想把万卡集群的性能全部发挥到极致是一件极其复杂的事情●☆▲▷◆▽。更直言希望在这个数量规模上再扩容100倍●▷。这背后是何原因★▽□□•△?☆▲◇=•◁“无限堆卡▼●◇=◇”这条路会否一直走下去•=?十万卡●▲●=☆-、百万卡乃至更大规模的算力集群是否真的需要★◁?饶少阳表示◆▪◁▽,目前液冷主要有两种方式▷☆,记者看到一台相变浸没式液冷概念机□□-★。在联想展位▼…•!
他举例说▽■,从GPT-3到GPT-4的性能飞跃…▷▪☆,背后是计算量的指数级增长◁■-•◁▲。而万卡集群正是实现这种计算量级投入的物理载体▼☆▷。
对此●▪-,有业内人士对《每日经济新闻》记者(以下简称每经记者)表示…●-▷,目前国内已出现两万/三万卡的国产智算集群▼□=▷▪,未来几年☆-,模型训练对万卡到十万卡级别仍有需求▷…●◆▽,但当前的大模型训练还不需要单个智算集群达到数十/百万卡规模●●●▲◇。该业内人士断言○◆“3年内单集群不太可能到30万卡•○▽••”☆▷▪•◆。
用浪潮数据董事长张东的话说△◇◁★,不管是万卡还是十万卡□▪◁■,关键是能不能真的把这些卡当成一个系统跑起来△▲。
张永健说◁◆▼◇△,在万卡规模下▽-▲△▼■,构建一个无阻塞-●◆○◁、高带宽=○●★◆、低延迟的网络架构-•◁•,其设计☆◇•▼▪-、部署和运维的复杂度呈指数级增长▲△▼。任何一个交换机•●=、光模块或线缆出现微小抖动••◆☆▼◆,都可能导致大规模的通信风暴□◇…▷,从而拖垮整个训练任务-△◇□▲◇。
在陈志看来▼☆■◆☆,现在大模型对精度容忍度更高•▷▽,FP8有很大机会▲☆◁•☆。除了用低精度方法提升总算力◇■▪☆,还要提升算力的整体利用率□▽★-◁=。利用率=单卡能力×万卡能力×节点能力×集群能力×集群稳定性◇•。★▲▲-□“所有这些都在一个工厂里进行优化▼▷☆▼○◇,也就是我们提的AI工厂概念★☆●□=,整体优化后-▼▪■,假如最后达到60%的利用率•-▽□◁■,而别人只有30%☆◇,那就相当于多了一倍的卡●▼△,或者达到同样的训练时间只用一半卡▼•。-▼■•”
有研究指出…■■,一个十万卡集群▪▽●,其故障间隔可能缩短到每半小时一次●•◁□▽○。创始人黄仁勋也曾提到=◆,10万张GPU的平均故障时间将缩短至分钟级☆•○。
此外▲▽□•★,探索更高效的训练法▼□,如自监督学习◁◇☆★◁◇、迁移学习▲★●▪▷、稀疏化训练等▽▲■○◆•,减少对海量标注数据的依赖和对蛮力计算的投☆◇•☆,可以从源头上降低算力需求◁▪••◇●。
秦云基础园区事业部总经理许俊对每经记者表示■=◆☆△,其智算中心的单机柜功耗可以做到42千瓦◇★□◇,使用全风冷(风冷的散热极限是单机柜60千瓦)散热…☆▲◁▪…。由于采用了绿电直连★▲,PUE这一指标可以说已经失效了▪●-★=,比如利用氟泵空调做一些余热回收给办公室供暖■•,◆△“PUE可以为负▪◁■…◇•”▷☆▼◇■▽。
多位受访者坦言△▷□-○★,大模型领域的竞争如同◆▼…▷△▽“军备竞赛★•●★”▪□●。谁能更快地训练出更优的模型△…••,谁就能抢占市场先机=-=■▪,定义技术标准•▷…,构建生态壁垒★▷△▷◁●。
所谓万卡集群-▲★□△,就是由超过1万张加速卡[如GPU★△、TPU(张量处理器)或专用AI芯片]组成的高性能计算系统●◁△☆。
张永健认为▽☆•◁□☆,最大的技术难点是☆•=◆==“系统级的稳定性和性能一致性○☆”●☆。在万卡集群中••…•,成千上万个组件[GPU▼…▲▲□▷、CPU(中央处理器)=◁▲○○•、网卡▼△◇、内存▼…◁○▪▲、线缆]中任何一个出现问题○◆▪◆●,都可能引发连锁反应★=。确保整个系统作为个…△●▪▼“超级计算机◁★”高效稳定运▽☆◆==,是最艰巨的挑战-=。
博是国内最早大规模部署单相浸没式液冷和冷板式液冷的厂商之一•○=…■。张永健说▪▼△▷☆▲,公司采用液冷的智算中PUE可以控制在1•◆▼.15以下-▼◇=□,部分甚至可以达到1•▽◁△◇◆.04○-•,远优于传统风冷数据中1▪●◁◇.4~1=…◆▪▪□.5的水平…▲…▷◁▪。
联想中国区基础设施业务群服务器事业部总经理周韬对每经记者表示●▪▲●•…,OISA其实就是卡间互联的一套技术•…★▪。
综上●=▲★-◁,万卡集群甚至十万卡集群是否真能解决算力焦虑▽□◁?绝大多数受访者认为★…◇,单靠堆卡并不能完全解决◇•▽◆▲。
中国信通院云大所数据中心部副主任王月认为△◁◆,算力中心绿电直连有望成为业内近期发展的重点●-。
不仅如此○▲◇•,☆◇=“到了一定规模以后△★○,机器的故障率就会很高•▲▼,1万卡的机器能连续跑1个小时☆…○,1张卡都不出问题■☆,是很难的◁■-◁•★。●▪●▷□”张东说▼○◆●•▲。
不久前▪▲…=●★,系统PUE(电能利用效率)低至1-▲○◁△.035◁●▪▲■◁。不是理论上的必然▼△◁□。如果通过万卡集群能缩短到1个月甚至更短时间•△▽,5年内xAI要部署到5000万张H100 GPU的等效算力□▷。效率比GPU高几个数量级○▪,随后◆■△▲▪●,比如华为昇腾384超节点就是把384张卡通过高速互联◇==●▲☆“拼成△=▲▽=”一台超级服务器…△。
▲☆□▷“目前冷板式液冷其实可以满足散热需求◁☆…▪▲之争:年内上线超百万卡集群OR三年内不太可能破30万卡,成本也更低■☆▽,在维护▪▼、生产工艺☆□○、后续运维方面都更简单▷▷。-○◆=◁”周韬说-○•▷,但浸没式效率更高□☆▷,未来GPU功耗再提升时•=○…▷,冷板可能也不够◇…,就像以前风冷够用△…▪▽▼,后来功耗增大就不行了=★。当前••▽●▽☆,浸没式是更具前瞻性的技术▪★…▼。
他进一步介绍△--▼,以前两张卡部署在不同的服务器里☆□,大家认为1+1=2□○▼,但上下相隔尽管只有几厘米•▷▷,转发产生的时延往往也会使整个计算效率损失20%以上◆●○。=▽“通过OISA协议把两张GPU芯片级直连后●★▲,通信延迟降低产生的效果才大于2○△,实际计算效率是单卡的240%▷=◆。…◆-●☆”
摩尔线程AI Infra总监陈志对每经记者表示=•,算力是实实在在的▼◇•▽,万卡解决的是训练本身的问题——训练大模型需要巨量的算力==……☆●,单卡解决不了=▷=▼•。
而眼下关键的掣肘因素就是网络互联能力——从几百张卡扩展到万卡尊龙凯时官方app下载▷★▼◆,节点之间需要实现网状-•□-、高速◇▽…▷、低延迟互联◆◁,既包括卡之间的互联●•▽○,也包括机器之间的互联◁△•…。
据张永健介绍◆▷•■,目前需要万卡集群服务的用户主要集中在头部互联网与云计算公司▷◇▪◁、融科技巨头•-、自动驾驶企业以及生物制药与生命科学研究机构等几个领域○▽○•。
行业领先者的利用率可达50%以上◁▽★☆…▽。孙仲对每经记者表示★●,一个原本需要6个月的训练任务▼=,做大模型必须靠堆卡只是现状•■◁-☆,一边是美国企业号称年底前要上线万卡集群尚无用武之地■-◁▽△▼,可能百卡甚至更少的计算卡就够了=◆●▽▼。联想中国基础设施业务群市场部总监级技术顾问李鑫告诉记者★◆▽△▷■,饶少阳坦言▪◁▲,OpenAI联合创始人▷★▪☆○、首席执行官奥特曼在推特上预告▲□◇△●•,目前万卡集群的算力利用率并不高△▽▼==。
张永健还提到▽-◆,软硬件协同设计非常重要=★,未来AI芯和系统在设计之初■•◇◁▼…,就会与上层的AI算法和框架进行协同设计●▲△。硬件为特定算法优化◆•==▪,算法也充分利用硬件的特性□◇▽,实现1+12的效果•-◁•。
万卡间的互联技术是一个很大的挑战■▪◇。张东向每经记者解释□●□△◇,目前英伟达专供中国的芯片主要就是限制了其互联能力▪▲◆…。就像人类工作时需多人协作▽●,芯片工作时也需要进行数据交互•-,一张芯片处理完的数据要传递给另一张芯片进行处理=◁☆•尊龙凯时app多家头部公司老总详解算力“军备竞赛”规模。-△…○“本来咱俩面对面●△◁=,我写完一张纸就拿一张给你…=■○…,现在一下变得隔了100米◆==□▼●,还加了一个很慢的传送带◇▲■□,我写完了放传送带上▽=●•,隔两分钟你才能收到●◆,这样效率自然就下降了▪•。▷□”
张永健认为▽◆-◁,当大家都能买到或建起万卡集群时■□☆,如何比对手用得更好更省更高效◆▷●△,就成了决胜关键•▲•▼◆●。未来竞争的焦点将集中在□◇:更高效的AI框架和编译器◇•☆▲;更智能的调度算法●•★■;更先进的模型压缩与量化技术◁•◆…•;数据处理与I/O(输入/输出)优化△-▲。
通过专线直接输送给特定用户▷=•,冷板式液冷只能冷却GPU或CPU◇◆▷◁●•,如果未来有新芯片架构▼-▽△?
吕乐表示■■■◆◇▷,超节点是万卡集群的基础△▼○▲。如果在一个机柜里都没法做到高效互联=▼◁…▼,就谈不上把1万张卡连成一个整体▪=◆★。传统分散部署时△■△…,1万张卡加起来只能发挥60%~70%的算力▷◆▽◁-,而现在通过超节点内高效互联+超节点间高速网络△▷…▲★,计算综合效率有望大幅提升●◇▼。
中国电信研究院战略发展研究所所长饶少阳对每经记者表示…•◁,现在大模型更多从▼○○◇•“预训练★◁◇◁▷”转向○•“后训练●=•▷…”☆○,并大量采用强化学习•★•▪★、思维链等方式▪★-□◆,带动算力需求倍速增长…◇…☆•。另外★…,除了模型训练外还有大量推理需求▽☆■◇▼,比如我们平时用豆包□•、DeepSeek等▽▷☆▽-□,这同样需要消耗大量算力△★。随着模型推理需求爆发●▷▲•…○、智能体规模落地◁☆●▲■,未来推理将成为智算需求增长的主力◆□•,训练算力也将同步增长□•▲▼▲▪。
他举例说◁○==,类似生物制药和生命科学领域进行蛋白质结构预测○◆△•、药物分子筛选等研究●…●•,这些复杂的科学计算任务借助大算力能显著加速研发进程■•。
张永健还提到☆△□▽◆,个万卡集群的峰值功耗达数兆瓦(1兆瓦=1000千瓦◁▲▼△▼●,1小时1兆瓦即1000度电)▪☆,这对数据中的供配电和冷却系统考验巨大▷☆=▲…•。
博大数据CEO张永健对每经记者表示▪□=▼◆•,Scaling Law(规模定律)的驱动是追求万卡甚至十万卡集群最核心的技术原因•▲。在AI领域=◇◇,尤其是大语言模型○▼,已经反复验证了一个规律△-▲:模型的性能与模型参数量…=-、训练数据量以及投入的计算量三个因素成正比-◆•。要训练出更强大▼…●、具备涌现能力的千亿甚至万亿参数模型○★▼▷○◆,就必须投入海量的计算资源●■=●•□。
围绕这一系列焦点问题•▼○,每经记者深入采访了多位头部企业的老总和业内专家◁△○▽,试图理出一个清晰的脉络▲□■○。
而此动辄耗时数周甚至数月的训练任务○★,如果中途频繁失败且无法快速恢复◁…,那么再高的理论算力也毫无意义▷☆,用户获得的有效算力将大打折扣△▪◁=▽。
▽▽“其中硬件采购成本占比最大▪=□◁•…,通常高达60%~80%▲▷,而GPU服务器本身占据了绝大部分▷■。●☆▲★”张永健说●▲▷◆•○,以1万张主流训练GPU为例☆◇●△■,仅硬件采购成本就可能超过10亿元•▪▽○◁◁。
除了超节点技术△▲☆•,业内正在通过低精度计算来优化计算过程▪△◆△。其中○★○,FP8(8位浮点数)技术逐渐崭露头角☆★▷●。
那时就不用万卡了◆…★,不再强制要求全额上网或仅通过电网企业统购统销•◁▼•□。马斯克扬言△◆▽▷□,所谓超节点就是通过高速互联技术▽★•,散热效率比前者提高30%~40%■●◁◆◁○。受限于GPU内存访问性能=◆■◇★▪、网络传输效率△…●▪、算法优化程度■▪-◆◇△、故障恢复能力等因素■●▽◇•,周韬告诉记者▽◆,这种迭代速度带来的优势是颠覆性的★▷●△-■。
而在互联技术方面▷▽,他认为●▲■□,随着带宽需求的急剧增加□□○,光互联将从数据中内部的交换机互联进步下沉到芯片与芯片之间尊龙凯时官方app下载○▽◆。这将彻底消除电信号传输的瓶颈■□△,实现更低延迟◁◁、更高带宽的连接○☆■,为构建更大规模的计算集群扫清障碍○■○◆★•。
陈志也认为-•☆☆•◁,万亿参数级别的模型基本需要大几千卡甚至万卡◆▪★○…-。国外头部公司已做到10万卡☆•▼◇、20万卡规模尊龙凯时官方app下载◆◆=•○,国内还没到这个水平▲▽…▲■,但今年也可能出现10万卡集群••○=,这是趋势★-●▪▲○。因为模型的发布要抢时间▷◆■■-,卡越多训练的时间就越短△…★●•。
张永健告诉记者▽▷★,一个万卡集群的成本中◁▪△□▪▲,电力与运维成本约占20%□☆▲=◆。其中…★△☆◁△,电力成本(包括IT设备用电和冷却系统用电)是持续性的巨大开销■○-。一个10万卡的集群◆=▲▼▽○,年耗电量可达1▷▷•.59太瓦时(等于10亿千瓦时即10亿度电)▼◁★●▲▷,电费超过1亿美元•◇▪…■▷。在运营成本中△★●尊龙凯时超高清投影仪,,冷却系统的能耗是数据中最大的支出之一◆●▲,有时能占到总运营成本的50%••☆★=。
饶少阳表示◁◆△○★,目前国内已出现两万/三万卡的国产智算集群★△●◇,国外的30万••…=、50万甚至100万卡更多是宣传口径•△•…•□。万卡级以上规模智算集群主要用于大规模模型训练…☆…○▲,而当前的大模型训练还不需要单个智算集群达到数十/百万卡规模=◁□◆▷。■=○★▲“因为根本没有那么多数据•□■◇☆,模型参数也不太可能突然增长■•…○◁•。△•□☆”他表示◆■▲△●○,但在未来几年△□=◆☆▷,大模型训练对万卡到十万卡级别仍有需求…◆☆△▼,3年以内单集群不太可能到30万卡的规模◁-□-○。
如此大规模的投入•★▼▲▪☆,是否就能•▪“丝滑•▼-○▷▷”解决算力焦虑◁▷=◆=▷?对此▷▪•,多位受访者均表示▽●=★▪•,将集群规模从几百几千卡扩展到万卡级别●▼○▽,绝非简单堆砌硬件▼◆▼。这是个复杂的系统工程◆=▼,会遇到系列非线性挑战◇☆○。
8月23日◆◇★,在2025中国算力大会现场◇•=◁,来自运营商◆●▽●▼•、互联网企业▲▽□●=◁、芯片厂商◆◆▷、服务器制造商及科研院所等领域的数十家国内产学研用核心单位▼•,共同宣布开启智算开放互联OISA(全向智感互联架构)生态共建■…。
张永健认为◁=●,未来的超算中将不再是单一的GPU集群-▽■,是CPU●-☆、GPU以及各种专用加速器…■□☆、存算一体芯片甚至是光子计算芯片片等多种计算单元深度融合的异构系统◇●。挑战在于如何通过统一的软件接口★◆,将不同的任务无缝调度到最适合它的硬件上•☆。
尽管基于不同的软硬件水平◁▽■▲=,各家智算中心成本不同◇▼■▪•□,但据业内粗略计算▷◆◆…▼,构建和运营一个万卡级别的智算中心成本惊人——至少在20亿元以上•★○▼。
尽管用万卡集群训练模型面临不少挑战-▽•-,但记者在采访中了解到△▲…=○■,目前业内正积极探索在计算▽=△▪■△、网络-▲▲▲…、存储▷▲■、能耗等方面进行优化•▼▷▷■▲。
吕乐认为▷…,未来不是简单堆20万●▼▽◁、30万张卡△●◇●•☆,而是把全国30多个省份的算力△●▲◁、存力…◆-▲、运力统一调度起来◁◁▲,就像高铁调度一样-◆◇,哪里任务多就扩哪里…□○=□…,哪里有空余就调剂过去☆▼▲▷,实现算力▽◆•-▼“像水电一样☆•••△”弹性流通==。
在大会算力成果展示区的中国移动展位★▲,记者看到了带有OISA标识的•◆“国芯国连☆□▲■☆•”超节点AI算力集群的机柜▲☆▷。山西移动政企能力运营总监吕乐向每经记者介绍☆○,以往一个机柜最多放三四台服务器●=★◇••,而这个超节点机柜能放16台服务器★▲●●,每台服务器里有两颗CPU△…★•、四张国产GPU☆◁,一共64张GPU卡(AI国产芯片)▪◆□□◇。
在能源供应方面◆•●▷◆,目前算力电力协同已经成为多部门政策关注的焦点□★★★▪■。目前业内通过源-网-荷-储多元互动形成了绿电直连○=、源网荷储一体化○•、算力负载转移△…、储能技术●•△▽▲…、绿电绿证交易■-、虚拟电厂▲•▼□▷▼、算力赋能电力六大协同模式●◁■,实现绿电就地消纳●▲=☆。
打个比方-☆▪,FP32☆◆-、FP16和FP8就分别类似于游标卡尺▪■◁●■▪、普通直尺和粗略的刻度尺☆●○,三者精度由高到低△▪=•-,内存占用从大到小…◆◇◆▷▽,计算速度从慢到快○●☆■□▽,在保证模型性能和效果的前提下●◁▷▷■…,选择尽可能低的精度○•▲△,并结合软硬协同…▷▪▪、算法优化等技术创新☆□☆△◆,可以换取速度▽=、节能和成本上的巨大优势◁▷=○。
陈志提到▪■…▷◆,最早训练是FP32(32位浮点数)-△□,慢慢转向混合精度训练FP32+FP16(16位浮点数)●☆▷…-,再到FP8▽△☆▽,数据位宽逐渐变小…□△△■▼,因此可实现更高的计算效率和更低的内存占用◇▷,进而降低算力成本□△▽▷。




