牛策略 | 蚂蚁透露!部署的万卡国产算力集群已媲美国际,超节点有望成国产算力加速发展重要动力

在2025年世界互联网大会·乌镇峰会上,阿里巴巴集团CEO吴泳铭表示,阿里巴巴正在建设超大规模AI基础设施,加大投入打造超级AI云。

此外,蚂蚁集团平台技术事业群总裁骆骥也发表了主题演讲,表示在算力方面,蚂蚁已部署万卡规模的国产算力集群,适配自研与各主流开源模型,训练任务稳定性超过98%,训练与推理性能可媲美国际算力集群,并全面应用于安全风控领域的大模型训练与推理服务。

民生证券认为,超节点有望成为集群扩展下的主流技术,在集群训练、推理等方面具有重要潜力,助力国产算力生态不断完善,成为国产算力加速发展的重要动力。

分析称,大模型发展呈现多个发展趋势,推动业界转向算法效率与底层架构的根本创新。

跨服务器张量并行(TP)成为必然选择,其跨设备的TP All-Reduce通信是大规模分布式训练性能提升的主要瓶颈;混合专家(MoE)模型的规模化应用使跨服务器专家并行(EP)成为关键技术需求,跨服务器的All-to-All通信成为新瓶颈。

为应对TP和EP对网络带宽与延迟的要求,构建超高带宽、超低延迟的ScaleUp网络成为业界主流技术路径,可将几十、上百甚至上千张XPU高速互联构建为超节点(SuperPoD),实现高效的计算和通信协同能力。

同时,对于关于海外算力芯片对华出售问题,市场已有多次反复和扰动,华西证券认为,无论后续海外算力芯片是否能够解除限制,国产化算力自主发展仍可能为后续国内政策支持的重点发力方向。在国内互联网大厂持续加大算力基础设施投入的大背景下,国产化算力有望承接其需求。

公司方面,据东方证券表示,

中科曙光:公司发布世界上首个640卡单机柜超节点——Scale X640,挑战单卡算力受限、带宽容量受限、网络通信受限、芯片设计功耗增加、零部件组件海量等问题。该超节点可支持万亿参数大模型训练,相比于传统方案,该方案在MOE大模型训练和推理性能可提升30%-40%。

协创数据:公司建设高端GPU算力服务器集群,已在上海、宁波、成都、乌兰察布等国内核心节点以及东南亚及美国等海外市场建立分布式算力网络。此外公司正推动数据存储业务向AI服务器领域延伸,构建覆盖终端、边缘到云端的协同存储体系。

*免责声明:文章内容仅供参考,不构成投资建议

*风险提示:股市有风险,入市需谨慎

本资讯中的内容来自持牌证券机构,意见仅供参考,并不构成对所述证券买卖做出保证。投资者不应将本资讯作为投资决策的唯一参考因素。亦不应以本资讯取代自己的判断。

本文内容和观点不代表牛策略APP平台观点,请独立判断和决策。在任何情况下,牛策略APP不对任何人因使用本平台中的内容所引致的任何损失负任何责任。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容