AI普及加速度：昇腾大EP解决方案强势赋能

AI普及加速度：昇腾大EP解决方案强势赋能

2025-03-19 09:32

　　过去几年，业界普遍的观点认为，大模型的进步依赖于不断增加芯片资源的堆叠。而的横空出世以来，彻底改写了AI算力需求的游戏规则。

　　当下，大模型的发展态势主要呈现为两大趋势：一是技术摸高，头部企业引领模型能力持续提升，对算力需求不断攀升;二是工程创新，DeepSeek开创的新路径，其模型能力强且遵循MIT协议开源，大幅降低业界模型部署门槛。

　　创新变革：轻松打破算力枷锁

　　我们知道，人工智能的三要素是算法、数据和算力，三者共同支撑技术应用与优化。就算法而言，如今已大多融入模型之中。以往，众多企业或行业在探索大模型时，往往会在一段时间后陷入沉寂，这背后有几个关键因素。

　　首先，许多行业的数据积累尚不足够，尤其是缺乏高质量的行业数据，这成为了一个重要的制约因素。其次，过去对算力的要求相对较高，通常需要千卡甚至更大规模的算力支持，这对许多企业构成了不小的门槛。再者，以往的许多模型主要采用闭源方式，企业要想获取并应用这些模型，难度较大，不仅需要跨越技术门槛，还要引进高水平的人才。

　　DeepSeek的发布，有效地打破了这三个方面的限制。其中，在数据方面，DeepSeek开创了全新的训练模式，利用其基础模型生成高质量的合成数据，再结合少量的行业数据，就能训练出像R1这样的模型，为业界带来了重大启示。这意味着，企业不再过度依赖大量的行业数据，即使数据积累有限，也可以通过二次训练和微调的方式，利用基础模型生成的合成数据和少量的高质量行业数据，训练出自己的行业大模型。

　　在算力方面，DeepSeek致力于将单个模型使用的算力门槛降低，如此一来，在百卡至千卡规模的算力范围内，就能够开展推理资源池的构建工作，同时还能进行模型的微调以及二次训练等操作。

　　在开源方面，DeepSeek将其模型开源，使得广大企业都能轻松使用，这极大降低了使用门槛。

　　值得一提的是，DeepSeek带来的影响是显著的，在To B(企业端)，DeepSeek激发千行百业应用创新，成为众多行业客户部署大模型的首选，促使各行业积极探索业务与大模型的结合，改变了以往有模型找场景的局面。在To C(消费端)，DeepSeek用户量爆发式增长，7天过亿，远超ChatGPT当初的增长速度。

　　破局利刃：从容应对多重挑战

　　在此背景下，各行业迅速掀起DeepSeek部署热潮，将其应用到自己的生产系统中，期望借此为企业发展注入全新活力与强劲动能。

　　随着DeepSeek在生产系统中的广泛应用，市场对于产品解决方案的需求也日益增长。一体机作为契合这一需求的创新产品顺势而生，并因其便捷性与快速部署能力，受到了市场的欢迎。

　　然而，随着接入用户数量的不断增加，企业积累了更为丰富的自有数据。在实际应用过程中，部分企业可能会察觉到通用的DeepSeek模型无法充分契合自身业务需求，进而产生模型微调、二次训练等需求。此时，企业可通过购置额外设备扩展硬件资源，以此开展二次训练工作。

　　与此同时，伴随业务持续拓展，当向企业内部更多用户提供服务时，一体机性能受限的问题便会凸显。特别是在服务数千甚至更多用户的场景下，提升系统性能成为当务之急。在这种情况下，构建资源池成为可行的解决方案。

　　不仅如此，我们注意到，在大模型发展进程中，一个显著趋势是模型正从以往的少量大专家模式向大量小专家模式转变。以DeepSeek为例，其V2版本拥有160个专家，演进至V3版本时专家数量增加到256个。同时，对比激活参数占总参数的比例，V2版本时该比例接近10%，到V3版本已降至约6%左右。

　　所谓“大专家”模式，其特点在于单个Token激活的参数量庞大，随之而来的是计算量剧增，进而导致算力成本高昂。而“小专家”模式，显著特征是专家数量众多，可分布到更多的卡上，减少每张卡权重加载的时延，减少权重的显存占用，能够显著提升单卡并行的路数，从而实现更大的吞吐和更低的时延。

　　当然，任何事物都具有两面性，当专家并行规模达到一定程度后，也会带来专家负载不均、ALL2ALL通信占比时间过高的问题。

　　值得一提的是，昇腾大EP解决方案凭借多项关键技术有效解决了以上挑战，具体来看：

　　MoE负载均衡，通过自动寻优、自动配比、自动预测、自动降解，实现备份节点和副本专家灵活可扩展、高可用和极致均衡。

　　PD分离部署，多种创新技术，提升系统有效吞吐50%，传统部署方案PD同节点部署，计算访存资源竞争，业界PD静态分离方案，提升系统资源利用率，但不够灵活，无法适应动态调整的场景，华为创新autoPD分离部署方案，自动感知负载变化，无需人工介入，自动伸缩P、D实例，结合多级缓存内存资源池化，提升系统有效吞吐达50%以上。

　　谈及AI算力，不可避免地要提到英伟达。H20作为英伟达针对中国市场发布的AI芯片，是用于大模型训练普遍采用的H100“低配版”，其AI算力仅为H100的15%，在预训练方面难以发挥作用。

　　另外，在推理方面，受性能的制约，H20只能在特定模型架构，如稠密模型的长序列推理任务场景下展现出一定的效能。像DeepSeek采用的是混合专家(MoE)架构，在高batch size场景下，H20极易陷入性能瓶颈，导致时延显著增加，从而无法充分发挥DeepSeek专家并行机制所具有的高吞吐量优势。因此，在大规模高并发的训推场景，H20难以满足实际应用需求。

　　双流/多维混合并行，平均性能提升30%，Prefill micro-batch双流并行，Prefill阶段，拆分Batch成两组更细粒度的Batch，实现计算和通信相互掩盖;MoE expert专家双流并行，共享专家和路由专家计算独立，利用Cube和Vector计算单元，实现两条Stream并行计算;Weight预取双流并行，利用L2 Cache大容量，通信和权重加载采用两条Stream并行，降低权重加载时间，提升matmul算子性能。

　　MLAPO融合算子，降低计算耗时70%，MLA预处理阶段，传统方案多算子串行，频繁占用内存、通信等资源，整体计算耗时占比高;昇腾MLAPO融合算子，将小算子融合成单一算子，Vector和Cube计算并行处理，减少开销降低计算耗时。

　　由此可见，昇腾大EP解决方案在负载均衡、系统吞吐、性能提升、降低计算耗时等方面取得了显著的效果，有效解决了相关挑战，展现出了强大的技术优势和创新性，为其在相关领域的应用和发展奠定了坚实的基础，也为行业内解决类似问题提供了极具价值的参考和示范。

　　写在最后：稳步迈向智能时代