七月三日,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥(KUAE)实现了智算集群解决方案的重大升级,从目前的千卡级别大幅扩展到万卡规模。

摩尔线程创始人兼CEO张建中表示:“AI模型训练的主战场,万卡已经成为标准。随着计算量的不断增加,大型模型训练迫切需要一个超级工厂,即一个“大而通用”的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。

我们所说的万卡集群,是指由一万张或更多的计算加速卡(如GPU)组成的高性能计算系统,用于训练基本的大型模型。该集群充分整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智能计算平台等关键技术,将底层基础设施整合成一台“超级计算机”,可以支持1000亿甚至1000亿参数的大型模型训练,有助于大幅减少大型模型训练时间,实现模型能力的快速迭代。

目前,国际科技巨头正在积极部署千卡甚至超万卡的计算集群,以确保大型产品的竞争力。随着模型参数从1000亿到1万亿不等,模型能力更加泛化,大模型对底层计算能力的需求进一步升级,万卡甚至超万卡集群成为本轮大模型比赛的门票。

据悉,构建万卡集群并非一万张GPU卡的简单堆叠,而是一个高度复杂的超级系统工程。它涉及许多技术难题,如超大型组网互联、高效集群计算、长期稳定、高可用性等。他说:“万卡集群可以想象成一个万人团队,团队需要有很强的沟通机制,才能合作做好一件事。“摩尔线程相关负责人表示,希望打造一个规模超万卡、场景通用、生态兼容性好的加速计算平台,优先解决大模型训练的问题。

大模型浪潮加速计算能力竞赛,国内GPU升级“万卡”集群。  第1张

据悉,在集群计算性能方面,新一代夸娥智算集群实现了10Exaa的单集群规模超万卡,浮点计算能力达到10万卡。-Flops,单集群计算性能的大幅提升,可以为万亿参数级大模型训练提供计算能力基础。

稳定性是衡量万卡集群性能的关键。“早期千卡故障率可能为0.1%,而万卡故障率可能为0.01%甚至0.001%,这对硬件设计和制造都是一个很大的挑战。”张建中说。在稳定性方面,夸娥万卡集群平均无故障运行15天以上,最长可实现30天以上的大模型稳定训练,平均每周训练效率在99%以上。

当天,中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设有限公司总承包公司、桂林华盛大数据科技有限公司分别与摩尔线程签订了三个万卡集群项目的战略合同,将共建国内GPU集群。

来源:北京日报客户端

记者:孙奇茹