分享好友 最新资讯首页 最新资讯分类 切换频道
DeepSeek“开源周”Day1:让英伟达H800性能翻两倍
2025-03-06 08:41

作者沐风

来源AI先锋官


2月24日,的“开源周”,开源了他们第一天的项目FlashMLA。


图片


开源地址:https://github.com/deepseek-ai/FlashMLA

在DeepSeek整个技术路线中,MLA(多头潜在注意力机制)是DeepSeek已经发布的V2、V3两款模型中,最为核心的技术之一。

其可以显著减少大模型训练和推理过程中的内存占用。

此前,中国工程院院士、清华大学计算机系教授郑纬民曾提及:“DeepSeek自研的MLA架构为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,成为DeepSeek训练成本低最关键的原因。”

而FlashMLA则是针对Hopper GPU开发的高效MLA解码内核,专为处理可变长度序列而设计,目前已投入了生产。

Hopper GPU是指基于英伟达Hopper架构研发的H系列GPU产品。

目前,英伟达该系列芯片已经发布H100、H800和H20等多款芯片。

据DeepSeek方面介绍,在基准测试性能表现上,FlashMLA可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。

图片


可以说,DeepSeek真的把自己最牛*的东西开源出来了。

公开资料显示,根据美国出口管制规定,H800的带宽上限被设定为600 GB/s,相比一些旗舰产品有所降低。

这意味着,使用FlashMLA优化后,H800的内存带宽利用率有望进一步提高甚至突破H800 GPU理论上限,在内存访问上达到极致,能让开发群体充分“压榨”英伟达H系列芯片能力,以更少的芯片实现更强的模型性能,最大化GPU价值。

对于整个AI生态来说,这是一件天大的好事。

妥妥的GPU性能红利。

虽然FlashMLA是一个针对Hopper GPU的优化代码库,但对于国产GPU而言,此次开源也有利好。

对于国产GPU而言,现在可以通过FlashMLA提供的优化思路和方法论,尝试让国产卡大幅提升性能,即使架构不同,后面国产卡的推理性能提升将是顺理成章的事儿。

结合此前DeepSeek发布的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

如果将FlashMLA视为针对推理解码做的“终极性能提升”,那么Native Sparse Attention就是对训练和推理做更全面的“稀疏化改革”。

两者结合到一起,DeepSeek的意思就很明显,“无论训练还是推理,我都要把硬件榨干。”

目前,FlashMLA在Github上已经达到了5.9kStar。

最新文章
游戏比赛,没人看了?
作者|小冬2001年,在韩国汉城会展大厅举办的首届世界电子竞技大赛(WCG),吸引了来自37个国家与地区的430名参赛者。在《星际争
空天信息产业版图基本拼全!看济南的“星箭双造”能力|卫星|航天|火箭|遥感_网易新闻
近日,济南商业航天领域动作频频。第八届中国(济南)新动能创新创业大赛上,济南发起设立总规模50亿元空天信息产业基金;山东省商
龙川又添休闲娱乐新地标,多元活动引得人气“爆棚”!|湿地公园|东江|川东|乡村_网易新闻
当前正是出游踏青、拥抱自然的绝佳时节龙川东江湿地公园星空营地正以全新面貌迎接八方游客该公园凭借其得天独厚的地理位置丰富多
NBA单场35分!戴维斯有望登陆CBA!_腾讯新闻
近日,CBA转会市场传来重磅消息:前NBA萨克拉门托国王队得分后卫特伦斯·戴维斯二世(Terence Davis II)的经纪人已正式向多支CB
NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级_腾讯新闻
2025 年是 PC 端 AI 发展的突破之年。PC 级小语言模型 (SLM) 的准确率相比 2024 年提高近 2 倍,显著缩小与前沿云端大语言模型 (
有望被险资关注的高股息板块
当保险行业全面迈向新会计准则,一个看似晦涩的科目FVOCI,正悄然改写险资的资产配置逻辑。在新准则下,保险公司若将股票划分为F
全面盘活“阴间文化”,网易这步棋太妙了_腾讯新闻
在中国,涉及鬼怪的话题总是被人禁忌,又让人充满好奇。这种好奇突破了时间的枷锁,从一千多年前的《搜神记》到清朝的《聊斋志异
寰行盛世香港专才怎么样?靠谱吗?2025最后窗口期助你弯道超车!|签证|永居|入境处_网易新闻
香港专才计划正以"低门槛、高通过率、全家受益"三大优势,成为内地职场精英突破职业瓶颈的关键路径。作为香港入境处认证的专业机
优秀案例|工商银行:企业管家云赋能企业数字化转型_腾讯新闻
编者按自2022年案例库启动以来,中关村互联网金融研究院已收录全国300+金融科技标杆实践,覆盖人工智能、区块链、大数据等前沿技
2026 年 1 月床垫品牌测评:保护脊椎 + 改善睡眠浅 中外中高端主卧床推荐_腾讯新闻
中国睡眠研究会《2026 中国睡眠健康白皮书》显示,超 75% 成年人存在睡眠不好、睡眠浅或睡眠质量差的问题,其中 68% 明确表示床