国产算力训练,华为宣布开源盘古7B稠密和72B混合专家模型
(文/观察者网 吕栋 编辑/张广凯)
6月30日早上,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。
华为表示,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。
根据公告,盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台。基于昇腾的超大规模MoE模型推理代码,已正式上线开源平台。盘古7B相关模型权重与推理代码将于近期上线开源平台。
5月底,华为曾披露,盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。
“盘古72B是兼顾性能与推理成本的黄金尺寸,最适合行业用户用AI改造业务。”华为专家曾表示。
随后在6月,有华为技术专家告诉观察者网,华为初步计划会向外开源,首先是盘古72B MoE模型是最有可能开源的模型。其次是小模型,有可能会给高校开源。
“我们以前很少对外发声,盘古也没有开源,所以大家对昇腾算力具体的情况不是特别了解,对模型的情况也不了解,外界就充满了猜疑。甚至认为昇腾训练不出来先进的大模型。昇腾算力能够训练出世界一流的大模型,训练高效率,推理高性能,系统高可用。第三方模型迁移到昇腾上可以做到:Day0迁移,一键部署。”他说道。
除了前述两款模型,华为近期还推出了参数规模达7180亿新模型——盘古Ultra MoE,全流程在昇腾AI计算平台上训练。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节。
“生态方面我们还需要努力。我们技术上会持续改进,昇腾的生态也在逐步完善,也包括对业界主流生态的兼容,全力支持好客户的发展,昇腾未来一定会越来越好。”前述技术专家对观察者网表示。
当时他透露,华为盘古718B Ultra MoE万卡集群预训练MFU(模型算力利用率)达到41%,实验室已达到45%;CloudMatrix384超节点训练MoE大模型,MFU超过50%。
“昇腾超节点的是全对等高速互联的架构,基于系统工程的方法,对计算、内存、通信的极致优化调度,并结合昇腾特点的亲和设计和数学算法创新,实现了超级并行,后续欧拉操作系统的优化升级支持各种资源的池化管理与调度,实现业务驱动的系统最佳匹配,训练效率、推理性能还能再上一个台阶。”这位专家表示。
近期在华为开发者大会(HDC 2025)上,华为云还发布了盘古大模型5.5,对自然语言处理(NLP)、计算机视觉(CV)、多模态、预测、科学计算五大基础模型进行升级。同时,基于CloudMatrix 384超节点的新一代昇腾AI云服务全面上线。
本文系观察者网独家稿件,未经授权,不得转载。