Bitget App
交易“智”变
行情交易合约跟单BOT理财Web3
杨植麟和梁文锋,论文撞车了

杨植麟和梁文锋,论文撞车了

深潮深潮2025/02/19 17:11
作者:深潮

当两个创始人把自己名字写进论文里。

当两个创始人把自己名字写进论文里。

在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。

在这两篇论文的作者名目里,各自有一个大家熟悉的名字:

梁文锋,杨植麟。

杨植麟和梁文锋,论文撞车了 image 0

杨植麟和梁文锋,论文撞车了 image 1

2月18日,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制,让它能更高效的处理更长的上下文。而更有趣的是,两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。

DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

根据论文,它提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高;处理 64k 标记序列时,速度可提高至 11.6 倍,训练也更高效,所需算力更少;在处理超长上下文的任务(如书籍摘要、代码生成、推理任务)中表现出色。

杨植麟和梁文锋,论文撞车了 image 2

与此前人们津津乐道的算法上的创新相比,DeepSeek这一次把手伸向了最核心的注意力机制(attention)的改造上。

Transformer是今天所有大模型繁荣的基础,但它的核心算法注意力机制依然有先天的问题:拿读书做比喻,传统的“全注意力机制”为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较。这样导致处理文本越长它越复杂,技术越卡,甚至崩溃。

此前学术界一直在提供各种解决的思路,NSA通过真实环境的工程优化和实验,组装出了一个由三个环节组成的可以用在训练阶段的架构方案:

它包括,1)语义压缩——不再是看每个词,而是分成一个组,也就是“块”,在保留全局语义的同时将序列长度缩减至1/k,同时引入位置编码来降低信息的损耗,进而将计算复杂度从O(n²)降为O(n²/k)。

2)动态选择——模型以某种得分判断机制,从文本中挑出最多关注的词,对它们进行细粒度的计算。这种重要性采样策略在减少75%计算量的情况下仍能保持98%的细粒度信息。

3)滑动窗口——前两者是摘要和划重点的话,滑动窗口就是查看最近的上下文信息,这样可以保持连贯性,而通过硬件级显存复用技术可以将内存访问频次降低40%。

这些思路每一个都不是DeepSeek的发明,但可以把它想象成ASML式的工作——这些技术元素已经存在,散落在各处,但工程上把它们组合在一起成为一个可以规模化的方案,新的算法架构,还没人做过。现在有人通过强大的工程能力做出来了一台“光刻机”,其他人可以用这个来在真实工业环境里训练模型。

杨植麟和梁文锋,论文撞车了 image 3

而月之暗面在同天发布的论文,提出了一个在核心思想上非常一致的架构:MoBA。(MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)

从它的名字就可以看到,它同样使用了把“词”变成块的方法。在“切块”后,MoBA 里有个像 “智能筛选员” 一样的门控网络,它负责挑选与一个“块”最相关的 Top-K 个块,只对这些选中的块计算注意力。在实际实现过程中,MoBA 还结合了 FlashAttention(能让注意力计算更高效)和 MoE(专家混合模型)的优化手段。

杨植麟和梁文锋,论文撞车了 image 4

与NSA相比,它更强调灵活性,没有完全离开现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力的模型更多的适配空间。

根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显。在1M token的测试中,MoBA比全注意力快了6.5倍;到10M token时,则提速16倍。而且,它已经在Kimi的产品中使用,用来处理日常用户们的超长上下文的处理需求。

杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。而梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。由此可以看出这两个工作对这两家公司创始人来说的重要性,以及对了解这两家公司技术路线的意义。

另一个可以为这种重要性做注脚的细节是,有网友发现,arxiv 上NSA这篇论文的提交记录显示,它在2月16日提交,提交者正是梁文锋自己。

杨植麟和梁文锋,论文撞车了 image 5

这不是月之暗面和DeepSeek第一次“撞车”。在R1发布的同时,Kimi难得的发布了K 1.5的技术报告,此前这家公司并不以对外展示它的技术思考为优先重点。当时这两篇论文同时把目标瞄准了RL推动的推理模型。事实上,仔细阅读这两篇技术报告,在K1.5的论文里,月之暗面对如何训练一个推理模型做了更详细的分享,甚至单从信息度和细节程度上,它是高过R1论文的。但之后DeepSeek的风潮掩盖掉了不少对这篇论文本身的讨论。

一个可以作为印证的,是OpenAI最近难得发布的一篇对其o系列模型推理能力讲解的论文里,同时点了DeepSeek R1和Kimi k1.5的名字。“DeepSeek-R1和Kimi k1.5通过独立研究显示,利用思维链学习(COT)方法,可显著提升模型在数学解题与编程挑战中的综合表现。”也就是说,这是OpenAI自己选来用来对比的两个推理模型。

杨植麟和梁文锋,论文撞车了 image 6

“大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。”

参与了MoBa核心研究的清华大学教授章明星在知乎上分享。

他还提供了一个很有趣的对比。

“DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL,不过 R1 从 Zero 开始,更加“存粹”或者说“less structure”一些,上线更早,同步开源模型。

Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向传递的 learned sparse attention,这一次 MoBA 更加 less structure 一些,上线更早,同步开源代码。”

这两家的连续“撞车”有助于人们对比着更好理解强化学习的技术发展,以及更高效更长文本的注意力机制的进化方向。

“结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样,结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于——Attention 中 sparsity 应当存在而且可以通过端到端训练习得——的相信。”章明星写到。

在MoBA发布后,月之暗面的许欣然也在社交媒体上称,这是一个做了一年半的工作,现在开发者可以开箱即用。

而选择此刻开源注定还是会被放在DeepSeek的“阴影”里讨论。有意思的是,在各家积极接入DeepSeek和开源自己的模型的今天,外界似乎总在第一时间想到月之暗面,对于Kimi是否会接入、模型是否会开源的讨论不停,月之暗面和豆包似乎成了两个仅剩的“异类”。

而现在看来,DeepSeek对月之暗面的影响相比其他玩家是更加持续的,它带来了从技术路线到用户争夺全方位的挑战:一方面它证明了哪怕是进入到产品的竞争上,基础模型能力也依然是最重要的;另外,今天越来越清晰的另一个连锁反应是,腾讯的微信搜索和元宝的组合拳,正借DeepSeek R1的势头补上一次它之前错过的营销投放战,最终也是冲着Kimi和豆包而来。

月之暗面的应对思路也就变得引人注目。其中开源是必须要做的一步。而看起来月之暗面的选择,是想要真正匹配DeepSeek的开源思路——目前在DeepSeek后出现的诸多开源大部分像是应激反应,它们还是用此前Llama时期的开源思路来跟随。事实上DeepSeek的开源与此前的已经不同,不再是Llama似的防守扰乱闭源对手式的开源,而是一种能带来明确收益的竞争策略。

月之暗面最近传出内部“把SOTA(state-of-the-art)结果做为目标”,看起来是最接近这种新的开源模式的策略,要开的是最强的模型,最强的架构方法,这样反而会得到它一直渴望的在应用侧的影响力。

根据两家的论文,MoBA已经用在月之暗面的模型和产品上,NSA也一样,它甚至让外界可以对DeepSeek接下来的模型有更明确预期。于是接下来的看点就是,月之暗面和DeepSeek用MoBA和 NSA各自训练出的下一代模型,要不要再撞车一次,并且还是以开源的方式——这可能也是月之暗面在等待着的那个节点。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

0

免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。

PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!

你也可能喜欢

Thesis分拆项目Acre斩获400万美元融资,比特币质押赛道估值突破9000万美元

在数字货币领域,每一次重大的融资事件和市场估值的变化都牵动着投资者和从业者的心。近日,Thesis分拆项目Acre成功斩获400万美元融资,与此同时,比特币质押赛道的估值突破了9000万美元。这一消息犹如一颗重磅炸弹,在币圈引起了广泛的

币界网2025/02/21 13:24

矿工投降潮背后:算力战升级触发比特币“人为熊市”

近期,比特币市场掀起了一股不小的波澜,矿工投降潮成为了行业内热议的话题。比特币作为加密货币领域的龙头,其市场动态一直备受关注。而此次矿工投降潮的出现,更是引发了市场参与者的高度警觉。这一现象不仅反映了比特币市场当前的复

币界网2025/02/21 13:16

特朗普加密政策摇摆,比特币“10万关口”遭政治博弈狙击?

近期,比特币市场再次成为全球金融领域的焦点,其价格一路攀升,不断逼近“10万关口”。这一关键价位的临近引发了市场的广泛关注和热议,投资者们翘首以盼,期待着比特币能够创造新的历史。比特币作为加密货币的代表,其价格的波动不仅影响

币界网2025/02/21 13:12

Mt.Gox 90亿美元比特币还款启动,幕后操盘手借利空“砸盘”?

Mt.Gox曾经是全球最大的比特币交易平台,在2014年却因被盗约85万枚比特币而宣告破产,这一事件成为了比特币发展史上的重大挫折,严重打击了投资者对加密货币市场的信心。如今,时隔多年,Mt.Gox的90亿美元比特币还款计划正式启动,这一消息

币界网2025/02/21 13:02