华为的盘古大模型主要运行在华为自研的昇腾(Ascend)AI服务器上,尤其是基于昇腾AI处理器(如Ascend 910)构建的AI计算集群。这些服务器是华为全栈AI解决方案的重要组成部分,配合华为的MindSpore深度学习框架、CANN(Compute Architecture for Neural Networks)异构计算架构以及ModelArts训练平台,共同支撑盘古大模型的训练和推理。
具体来说:
-
硬件平台:
- 使用华为昇腾系列AI芯片(如Ascend 910)作为核心算力。
- 服务器形态包括Atlas 800训练服务器、Atlas 900 AI集群等,这些设备专为大规模AI训练设计,具备高算力密度和高效能。
-
AI集群架构:
- 盘古大模型的训练依赖于大规模分布式计算,华为通过Atlas 900这类AI集群,将数千颗昇腾芯片互联,提供强大的并行计算能力。
- 支持高速RDMA网络互联,确保多节点间通信效率,降低训练延迟。
-
软件栈支持:
- MindSpore:华为自研的AI框架,原生支持盘古大模型的开发与训练。
- ModelArts:提供从数据处理、模型训练到部署的一站式AI开发平台。
- CANN:底层算子库和调度引擎,优化昇腾芯片的计算性能。
总结:
盘古大模型主要运行在基于华为昇腾AI芯片的Atlas系列服务器和Atlas 900 AI集群上,依托华为全栈自研的AI软硬件体系,实现了高效的大模型训练与推理能力。这种端到端的自主可控技术架构,也是盘古大模型在X_X、制造、气象、医药等领域落地的重要支撑。
CLOUD技术博