分享好友 最新资讯首页 最新资讯分类 切换频道
DeepSeek“开源周”Day1:让英伟达H800性能翻两倍
2025-03-06 08:41

作者沐风

来源AI先锋官


2月24日,的“开源周”,开源了他们第一天的项目FlashMLA。


图片


开源地址:https://github.com/deepseek-ai/FlashMLA

在DeepSeek整个技术路线中,MLA(多头潜在注意力机制)是DeepSeek已经发布的V2、V3两款模型中,最为核心的技术之一。

其可以显著减少大模型训练和推理过程中的内存占用。

此前,中国工程院院士、清华大学计算机系教授郑纬民曾提及:“DeepSeek自研的MLA架构为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,成为DeepSeek训练成本低最关键的原因。”

而FlashMLA则是针对Hopper GPU开发的高效MLA解码内核,专为处理可变长度序列而设计,目前已投入了生产。

Hopper GPU是指基于英伟达Hopper架构研发的H系列GPU产品。

目前,英伟达该系列芯片已经发布H100、H800和H20等多款芯片。

据DeepSeek方面介绍,在基准测试性能表现上,FlashMLA可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。

图片


可以说,DeepSeek真的把自己最牛*的东西开源出来了。

公开资料显示,根据美国出口管制规定,H800的带宽上限被设定为600 GB/s,相比一些旗舰产品有所降低。

这意味着,使用FlashMLA优化后,H800的内存带宽利用率有望进一步提高甚至突破H800 GPU理论上限,在内存访问上达到极致,能让开发群体充分“压榨”英伟达H系列芯片能力,以更少的芯片实现更强的模型性能,最大化GPU价值。

对于整个AI生态来说,这是一件天大的好事。

妥妥的GPU性能红利。

虽然FlashMLA是一个针对Hopper GPU的优化代码库,但对于国产GPU而言,此次开源也有利好。

对于国产GPU而言,现在可以通过FlashMLA提供的优化思路和方法论,尝试让国产卡大幅提升性能,即使架构不同,后面国产卡的推理性能提升将是顺理成章的事儿。

结合此前DeepSeek发布的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

如果将FlashMLA视为针对推理解码做的“终极性能提升”,那么Native Sparse Attention就是对训练和推理做更全面的“稀疏化改革”。

两者结合到一起,DeepSeek的意思就很明显,“无论训练还是推理,我都要把硬件榨干。”

目前,FlashMLA在Github上已经达到了5.9kStar。

最新文章
限时申请!克而瑞《2024年阿联酋房地产市场白皮书》完整版_腾讯新闻
《2024年阿联酋房地产市场住宅白皮书》由 CRIC 克而瑞研究中心撰写,Asia Bankers Club提供技术支持。这份白皮书对阿联酋房地产
广东 东莞 德国胶宝TPE 代理商_志趣网
(东莞市佳捷塑胶原料有限公司邓先生)TPE美国杜邦 4069、5526、5556、6356、7246、7246 WT408、G4774、G3548L、6356-BKB09TPE欧
等了七年,这部王炸刑侦剧狗尾续貂了?
七年前,《白夜追凶》横空出世,刷新了很多人对网剧质量的认知。          当时,它不仅引发了现象级的追剧热潮,成为第一
健合集团合生元多举措推进儿童营养素养提升,助力健康中国2030
在健康中国战略持续推进的背景下,6月14-15日,中国健康促进与教育协会在上海召开第二届中国健康促进大会。大会设立多个分论坛,
法治时空 | 法律监督进高墙——一起不予减刑案件的背后
2025年7月24日安徽广播电视台农业·科教频道《法治时空·检察直播间》播出假释不是特权,而是精准的司法担当,当假释裁定书化为
山东本地ai写作生活助手-2024ai学习栏目
山东本地ai写作生活助手1. 山东本地写作生活助手是一款结合了先进人工智能技术的实用工具旨在为客户提供便捷、高效的生活信息写
张艺谋拍《三体》投资无上限!中国版《头号玩家》+《星际穿越》也要来了?
文丨kino图丨复合型人才“我做了那么多年IP,比不上一个《》IP”,光线传媒董事长王长田说,日前他在上海国际电影节开幕论坛上公
小心!你点赞的“萌宠”水獭视频,可能正加速一个物种的灭绝
上图是一只小爪水獺(墨尔本动物园)。摄影:fir0002本文约6500字,阅读约14分钟文 | 周子又出品 | 海潮天下近年来,水獭以“顶