DeepSeek突发!本周启动!

万众瞩目的DeepSeek“开源周”,第一弹来了。

2月24日,DeepSeek开源了首个代码库FlashMLA。据了解,这是DeepSeek针对Hopper GPU优化的高效MLA(Multi-Head Latent Attention,多头潜在注意力)解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。

DeepSeek突发!本周启动!

上周四,DeepSeek宣布将在本周举办“开源周”活动,连续开源五个代码库,由此引燃了大家的期待。作为“开源周”的第一弹,FlashMLA给业界带来颇多惊喜。本周的剩下四个工作日,DeepSeek还将继续开源四个代码库。业内人士分析,其余四个代码库可能会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。

进一步突破GPU算力瓶颈

根据DeepSeek的介绍,FlashMLA主要实现了以下的突破:

一是BF16支持,提供更高效的数值计算能力,减少计算精度损失,同时优化存储带宽使用率。

二是分页KV(Key-Value,一种缓存机制)缓存,采用高效的分块存储策略,减少长序列推理时的显存占用,提高缓存命中率,从而提升计算效率。

三是极致性能优化,在H800GPU上,FlashMLA通过优化访存和计算路径,达到了3000GB/s内存带宽和580TFLOPS的计算能力,最大化利用GPU资源,减少推理延迟。

据了解,传统解码方法在处理不同长度的序列时,GPU的并行计算能力会被浪费,就像用卡车运小包裹,大部分空间闲置。而FlashMLA通过动态调度和内存优化,将HopperGPU的算力“榨干”,提升相同硬件下的吞吐量。

简单理解,FlashMLA能够让大语言模型在H800这样的GPU上跑得更快、更高效,尤其适用于高性能AI任务,进一步突破GPU算力瓶颈,降低成本。

值得注意的是,DeepSeek之所以能够实现大模型训练与成本的大幅降低,与其提出的创新注意力架构MLA密不可分。MLA(多头潜在注意力机制)又被称为低秩注意力机制,是与传统的多头注意力机制(Multi-head Attention)不同的一种创新性注意力机制。自从V2模型开始,MLA就帮助DeepSeek在一系列模型中实现成本大幅降低,但是计算、推理性能仍能与顶尖模型持平。

浙江大学计算机科学与技术学院和软件学院党委书记、人工智能研究所所长吴飞表示,我们理解一篇文章,更关切单词所刻画的主题概念,而非单词从头到尾的罗列等。传统大模型中的注意力机制由于需要记录每个单词在不同上下文中的左邻右舍,因此其变得庞大无比。DeepSeek引入低秩这一概念,对巨大的注意力机制矩阵进行了压缩,减少参与运算的参数数量,从而在保持模型性能的同时显著降低了计算和存储成本,把显存占用降到了其他大模型的5%—13%,极大提升了模型运行效率。

由于Flash MLA进一步突破了GPU算力瓶颈,记者注意到,有英伟达股民跑到DeepSeek的评论区祈祷,希望DeepSeek在让GPU更为高效的同时,能够不影响英伟达的股价。

DeepSeek突发!本周启动!

以持续开源加速行业发展进程

作为开源社区的“顶流”,DeepSeek以完全透明的方式与全球开发者社区分享最新的研究进展,加速行业发展进程。

在开源公告中,DeepSeek还表示,自己只是探索通用人工智能的小公司,作为开源社区的一部分,每分享一行代码,都会成为加速AI行业发展的集体动力。同时,DeepSeek称,没有高不可攀的象牙塔,只有纯粹的车库文化和社区驱动的创新。

DeepSeek突发!本周启动!

记者注意到,在DeepSeek开源FlashMLA的帖子下,有不少网友点赞其公开透明的开源精神。有网友表示,“OpenAI应该将它的域名捐给你”,还有网友说,“(开源周)第五天,我猜会是通用人工智能”。

DeepSeek突发!本周启动!

由于DeepSeek的图标是一只在大海里探索的鲸鱼,还有网友形象生动地描述称,“这条鲸鱼正在掀起波浪”(The whale is making waves)。

据证券时报记者了解,(Open Source Initiative,开源代码促进会)专门针对AI提出了三种开源概念,分别是:

开源AI系统:包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供,而训练数据只需要公开出处(因为一些数据集确实无法公开提供)。

开源AI模型:只需要提供模型权重和推理代码,并按照开源协议提供。(所谓推理代码,就是让大模型跑起来的代码。这是一个相当复杂的系统性工程,涉及到了GPU调用和模型架构)。

开源AI权重:只需要提供模型权重,并按照开源协议提供。

业内普遍认为,DeepSeek的胜利是开源的胜利,开源大模型的创新模式为人工智能的发展开辟了新的路径。DeepSeek此前开源的是模型权重,并没有开放训练代码、推理代码、评估代码、数据集等更为重要的组件,因此属于第三种类型的开源。

一名资深的业内人士告诉记者,在DeepSeek推出R1并发布技术报告后,许多团队都在试图复现R1模型,但由于背后还涉及许多重要和关键的技术细节,因此要实现真正的复现其实比较困难,而且也需要较长的时间。不过,业内的开源基本上也都是开源模型权重,而DeepSeek的开源与其他开源模型相比已经是最顶级、最彻底的一种。

正因如此,DeepSeek也被业界称为“源神”。同样在今天,DeepSeek-R1在知名的国际开源社区Hugging Face上获得了超过一万个赞,成为该平台近150万个模型之中最受欢迎的大模型。Hugging Face的首席执行官Clement Delangue也在社交平台上第一时间分享了这一喜讯。

DeepSeek突发!本周启动!

民生证券研报认为,DeepSeek所有模型均为开源模型,即所有应用厂商都拥有了可以比肩顶级AI的大模型,而且还可自行二次开发、灵活部署,这将加速AI应用的发展进程。当模型的成本越低,开源模型发展越好,模型的部署、使用的频率就会越高,使用量就会越大。

研报进一步指出,经济学上著名的“杰文斯悖论”提出,当技术进步提高了资源使用的效率,不仅没有减少这种资源的消耗,反而因为使用成本降低,刺激了更大的需求,最终导致资源使用总量上升。因此从更长的周期来看,DeepSeek的发展恰恰会加速AI的普及和创新,带来算力需求,特别是推理算力需求更大量级提升。

来源:证券时报

主题测试文章,只做测试使用。发布者:九派网,转转请注明出处:https://www.uuxn.cn/article/5009.html

(0)
九派网的头像九派网
上一篇 2025年2月24日
下一篇 2025年2月25日

相关推荐

  • 张坤们摔下神坛

    作者 | 段明珠 头图 | AI生成 “顶流”张坤正在遭遇猛烈的反噬。 除易方达亚洲精选,张坤管理的另3只基金近3年亏损都在30%;换成金额更直观,从2021年到2024年,其管理的基金已亏掉基民们大概450亿元。讽刺的是,张坤近几年给易方达创造的管理费收入超50亿,自己也稳坐副总经理一职。 作为曾经的“公募一哥”,张坤过去几年频频踩雷却又“毫无作为”;其背…

    2025年1月23日
    4500
  • 黑天鹅突袭,全线暴跌!

    下周A股将有24家上市公司迎来限售股解禁,解禁股对应市值合计350.15亿元。 美股全线暴跌 当地时间周五,美股开盘继续大幅下挫!截至收盘,道指跌5.5%,纳指跌5.82%,标普500跌5.97%。大型科技股普跌,特斯拉大跌10.42%,英伟达跌7.36%,苹果跌7.29%。 美国消费者新闻与商业频道(CNBC)报道称,人们担心贸易战将导致全球经济陷入衰退,…

    2025年4月5日
    4800
  • 500亿半导体龙头,增长超26%!科创板首份年报来了

    【导读】盛美上海发布2024年年报,净利润同比增长26.65% 中国基金报记者 南深 2月26日晚,科创板首份2024年年报亮相,“花落”盛美上海。 年报显示,盛美上海2024年营业收入为56.18亿元,相比2023年的38.88 亿元,增长44.48%;2024年归属于上市公司股东的净利润为11.53亿元,比2023年的9.11亿元增长26.65%;202…

    2025年2月27日
    4000
  • A股市值最低公司锁定终止上市,新一轮退市警报拉响

    不用等到年报正式披露,*ST大药(603963.SH)便已经提前锁定终止上市。 根据公告,近期上交所决定终止公司股票上市,并且没有退市整理期,公司股票将于3月21日终止上市并摘牌。 *ST大药,于2017年9月登陆A股,成为云南大理首家A股主板上市公司,同时该公司也是目前当地仅有的一家A股上市公司。 不过,由于2023年度净利润为负值、营业收入低于1亿元,2…

    2025年3月20日
    1900
  • 高管层震荡后,云南白药业绩增速放缓

    告别“炒股”、高管层震荡、重返国资控股……过去一年云南白药经历了不小的变动。多重挑战之下,老牌中药企业将如何破局? 近日,中药龙头企业云南白药发布2024年年度业绩公告。去年全年云南白药营收400.33亿元,同比微增2.36%;归母净利润47.49亿元,同比增长16.02%。相较于2023年,公司业绩增速整体放缓。 健康品增速下滑 具…

    2025年4月3日
    2100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信