中金：模型+工程创新持续唤醒算力 DeepSeek撬动推理需求蓝海

日期：2025-03-05 作者：0omy6 移动：http://www.wrujm.cn/mobile/quote/3820.html

智通财经APP获悉，中金发布研究报告称，除了训练以外，DS团队在最新一系列的开源成果发布中针对推理任务也做出了双重维度的创新：一方面通过模型优化降低硬件资源占用，另一方面通过硬件工程化优化以发挥硬件最大效能。集群推理成为主流利好以太网通信设备需求;市场拥有高水平的开源模型后，云端/私域部署需求快速增长。除海外产品外，国产算力链以其快速的适配也迎来了商业机会。

模型创新：借助MLA、NSA等技术优化加速推理

在上一篇聚焦训练任务的报告中，该行重点解读了DS大语言模型中前馈网络(FFN)架构部分由稠密演化到稀疏(MoE，专家模型)产生的影响，同时，DS在注意力机制(Attention)部分也做出了创新。针对传统Attention部分需要计算所有词对之间关联的特性，在处理文本变成长时，计算量和内存消耗会呈现大幅增长。

该行认为独创的多重潜在注意力机制(Multi-Latent-Attention，MLA)方法，通过将占用内存较大的KV矩阵投射到隐空间来解决KV cache占用过多的问题，类似“高度概括的全局视角”;而近期，DS团队又在最新发布的论文[1]中指出，可采用原生稀疏注意力(Native Sparse Attention, NSA)方法，从底层设计避免计算无关词对注意力，类似“关键信息的详细洞察”，直接对序列长度进行压缩，优化推理算力、存储开销。

硬件工程优化：DS团队采用PD分离+高专家并行度策略充分释放硬件性能

首先，针对推理过程中预填充(Prefill)和解码(Decode)两个对计算/存储资源要求的差异性较大的任务分别做了针对性的硬件优化配置;其次，为实现更好的计算单元利用效率并平衡通信开销，DS团队在Decode阶段采用了高达320的专家并行度(Expert Parallel)来布置推理硬件。DS团队也开源了MLA相关内核(Kernel)，直接解密MLA结构在NV硬件上的具体实现，该行认为这给开发者优化适配其他硬件(如国产卡)提供了思路。

硬件需求启示

1)集群推理成为主流形式，利好以太网通信设备需求;2)DS团队为市场带来高水平的开源模型后，云端/私域部署需求快速增长，该行测算仅微信接入DS模型有望带来数十万主流推理卡的采购需求。结构上，除海外产品外，国产算力链以其快速的适配也迎来了商业机会。

风险

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行