大模型浪潮加速计算能力竞赛，国内GPU升级“万卡”集群。

yuneu 互联网资讯 2024-07-04 63 0

七月三日，总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥（KUAE）实现了智算集群解决方案的重大升级，从目前的千卡级别大幅扩展到万卡规模。

摩尔线程创始人兼CEO张建中表示:“AI模型训练的主战场，万卡已经成为标准。随着计算量的不断增加，大型模型训练迫切需要一个超级工厂，即一个“大而通用”的加速计算平台，从而缩短训练时间，实现模型能力的快速迭代。

我们所说的万卡集群，是指由一万张或更多的计算加速卡(如GPU)组成的高性能计算系统，用于训练基本的大型模型。该集群充分整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智能计算平台等关键技术，将底层基础设施整合成一台“超级计算机”，可以支持1000亿甚至1000亿参数的大型模型训练，有助于大幅减少大型模型训练时间，实现模型能力的快速迭代。

目前，国际科技巨头正在积极部署千卡甚至超万卡的计算集群，以确保大型产品的竞争力。随着模型参数从1000亿到1万亿不等，模型能力更加泛化，大模型对底层计算能力的需求进一步升级，万卡甚至超万卡集群成为本轮大模型比赛的门票。

据悉，构建万卡集群并非一万张GPU卡的简单堆叠，而是一个高度复杂的超级系统工程。它涉及许多技术难题，如超大型组网互联、高效集群计算、长期稳定、高可用性等。他说：“万卡集群可以想象成一个万人团队，团队需要有很强的沟通机制，才能合作做好一件事。“摩尔线程相关负责人表示，希望打造一个规模超万卡、场景通用、生态兼容性好的加速计算平台，优先解决大模型训练的问题。