分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

DeepSeek新年炸场！梁文锋署名论文发布

第一财经 2026-01-01 21:42:53 听新闻

作者：刘晓洁责编：刘佳

给AI“水管”加智能阀。

1月1日消息，DeepSeek赶在新年前发送了“贺礼”，在新论文中提出了名为mHC（流形约束超连接）的新网络架构，旨在解决传统架构在大规模模型训练中的不稳定性问题，这一研究或将为下一代基础架构的演进指明新方向。

新论文名为《mHC :Manifold-Constrained Hyper-Connections》（《mHC：流形约束超连接》），DeepSeek创始人兼CEO梁文锋出现在了合著名单之中，而解振达（Zhenda Xie）、韦毅轩（Yixuan Wei）、曹焕琪（Huanqi Cao）则是核心贡献者。

近年来，以超连接（HC）为代表的研究拓展了过去十年确立的通用残差连接范式（深度神经网络的经典连接范式），靠拓宽神经网络的“信息传输通道”、增加通道间的连接，让模型性能变好。但这种多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

因此，DeepSeek这篇论文针对超连接架构这些问题，提出兼顾性能与效率的改进框架，即mHC 架构，这类似于给超连接的“信息通道”加了一套“交通规则”，在保留性能优势的同时，又恢复了信息原样传递的特性，让模型训练更稳定、更容易做大，从而推动大模型底层架构的工业化落地。

这一论文整体较为技术，但通俗来讲，如果将AI模型想象成一个很长的“计算链条”，传统计算链条的问题在于，传递信息时是一条窄窄的管道，信息量大了就会“堵车”。后来的方法是将管道加宽（超连接），信息流更多，但水流太猛有时候会把水管冲坏。DeepSeek提出的mHC相当于给水管加了“智能调节阀”，能确保水流的稳定，运行的时候更省资源。

在论文中，DeepSeek表示，mHC为未来研究开辟了多个前景广阔的路径。研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解，mHC或将有助于突破当前限制，并可能为下一代基础架构的演进指明新方向。

从行业意义上来看，mHC或许能让企业在训练更大规模的基础模型时，减少硬件投入、缩短训练周期。比如算力有限的中小AI企业，也能尝试开发更复杂的大模型，降低了大模型研发的门槛。此外，训练稳定性和可扩展性的提升，能让大模型在更复杂的场景落地，比如需要超大规模参数的多模态模型、工业级的智能决策系统。

有行业人士评价认为，DeepSeek这一研究是底层创新，这次创新的架构看向的是Transformer最基础的问题，结合此前的积累，他预测DeepSeek 有望在V4版本中做出重大的更新。

自2025年初引发广泛关注以来，这一年DeepSeek虽未正式推出R2或V4等重大版本，但在模型迭代与开源上持续发力：仅12月就同步推出了DeepSeek-V3.2与V3.2-Special，11月底也开源了数学推理模型DeepSeek-Math-V2，成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com