会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面
专家访谈汇总:《哪吒2》衍生品收入将超100亿
2025-03-03IP属地 湖北2

DeepSeek-V3支持FP8混合精度训练,并通过全面优化训练框架,减少GPU内存使用,解决了跨节点MoE训练中的通信瓶颈,从而加速了训练过程。

DeepSeek-V3采用了多头潜在注意力(MLA)机制和DeepSeek MoE架构,这不仅提升了推理速度,还显著提高了显存利用率,在保证性能的同时大幅优化训练和推理效率。

DeepSeek大幅降低的推理成本为各行业的企业智能化需求提供了推动力,尤其是垂直领域的AI小模型(AIAgent)的开发成本大幅降低,推动了这些领域的快速发展。

DeepSeek的模型知识蒸馏压缩技术使得小模型能够继承大模型的能力,同时保持轻量化特性,适应快速发展的小型应用场景。

数据实时性要求和低延迟的高带宽网络对垂类AIagent提出了新挑战,推动了对网络通信基础设施的需求增长,特别是在交换机、边缘计算设备和5G切片等领域。

尽管DeepSeek模型降低了单次训练任务的算力需求,但轻量化的模型促进了分布式训练边缘计算的普及,这可能改变数据中心和计算架构的需求,推动机架内光模块短距光模块的需求增长。

由于分布式架构的推动,800G光模块的需求可能进一步增长,特别是在需要低延迟、高带宽的分布式计算环境中。

光模块的核心价值在于提高能效比、压缩空间和降低成本,即使算力需求下降,这些需求依然推动光模块的渗透率提升。

边缘计算5G切片的需求将促进相关基础设施的扩展,推动新型光模块和通信技术的应用,满足高效训练与推理的网络需求。


3、DeepSeek带来互联网新格局》

DeepSeek的创新在于其引入了强化学习方法,在后训练阶段对已有的强大模型进行训练,从而显著提升模型的推理能力,且成本相对较低。

如论文《AI capabilities can be significantly improved without expensive retraining》所提到,后训练阶段的开发成本远低于预训练阶段,且微调成本通常不到原始训练的1%,却能显著提升模型能力。

这为大多数企业提供了更加高效、低成本的路径,尤其对于AI的“后发者”而言,强化学习成为性价比更高的选择。

推理模型的引入使得AI大模型在处理复杂任务方面获得了更强的能力,远超非推理模型在情感聊天等领域的优势。

推理模型不仅可以提升产品能力,还开始具备作为“效率工具”的潜力,进一步推动了个人AI助理的雏形。

虽然一些厂商为AI的“后发者”,但通过拥有自己的业务生态系统,厂商能够利用AI赋能提升业务场景的体验,这不仅促进了AI技术的普及,还推动了业务领域的数字化转型。

DeepSeek-R1表明,推理模式不局限于大模型,还可以被精炼并应用到小型模型中,提升小型模型的效果。

随着DeepSeek的创新推动,2025年大模型能力将显著提升,AI行业的竞争也从技术之争转向了生态之争应用之争

推荐关注具备生态优势的企业,如腾讯(00700.HK)阿里巴巴-W(09988.HK)、小米集团-W(01810.HK)等,它们在AI技术和应用生态建设方面将占据重要地位。

ServiceNow(NOW.N)Salesforce(CRM),这些公司在推动AI赋能和应用层面的创新方面具有强大的竞争力,特别是在智能化企业应用上。

随着AI技术在各行业的深入应用,Cloudflare(NET.N)等端侧网络安全厂商的需求也会增加,因其能够提供更安全、更高效的网络支持。

随着推理能力的提升和AI应用的广泛普及,亚马逊(AMZN.O)甲骨文(ORCL.N)、世纪互联(VNET.O)等云计算和数据中心厂商将受益于推理需求的增长。


4互联网大厂如何受益于DeepSeek-R1“破圈”?》摘要

相关文章

相关动态