春节期间,DeepSeek 成为了主导海外市场的关键词。蛇年第一个交易日,DeepSeek 继续节前的活跃态势,股价持续大涨。DeepSeek 以不到 600 万美元的训练成本,实现了与 GPT-4 相当的模型性能,这被称作是中国的 ChatGPT 时刻。DeepSeek 技术上的创新点在哪里?这种低成本高效能的模式是否正在颠覆全球的 AI 行业?算力、芯片的投资逻辑是否会发生改变?全球前瞻产业研究院联席院长孔蓉对相关问题进行了详细解读。
问题 1:DeepSeek 以不到 600 万美元的训练成本实现了与 GPT-4 相当的模型性能,这被称作 “中国的 ChatGPT 时刻”。您认为 DeepSeek 主要的创新点在哪里?
孔蓉:我们从技术侧而非仅仅从成本侧去看 DeepSeek,这个领域大家讨论得比较多。我们认为它在创新点方面有不少亮点。它采用了所谓的 MOE 架构,在算法方面提升了效率,还对推理侧的效率进行了优化。即便与原有的 LLM 训练模型相比,我们使用的算力和计算卡不仅数量少,而且算力卡本身的性能与海外大厂所用的卡相比也存在差距。但即便在这种受限条件下,我们在整个算法层面还是做出了自身的一些创新。我们了解到,像 Meta 在 DeepSeek 这个模型出现后,其整个内部可能都在紧急学习,试图复现 DeepSeek 模型的能力。
如果做个比喻,原有训练模型时较多采用监督学习的方式。这种方式在很多原有模型训练中较为常见,即在训练过程中,人类会告知模型一步步该怎么走才能到达终点,并且在模型运行过程中不断给予奖励,以此让模型具备学习能力,这就是原有的监督学习方式。然而,在 DeepSeek 模型的训练中,运用的强化学习则有所不同。它类似于只告诉模型最终的目的地,待模型到达该目的地后给予奖励,但在这个过程中,模型需要自行探索路径。这就是为什么海外尤其是硅谷的大佬们,以及全球众多科技大厂,包括 OpenAI 等,极为惊讶于中国 AI,特别是中国在强化学习能力在模型应用方面竟如此强大。
问题 2:DeepSeek 这种 “低成本高效能” 模式是否正在颠覆全球 AI 行业,特别是中美 AI 的竞争格局?
孔蓉:其实前面也有提到,大家一直在提的一句话 ——necessity,The model of invention。我们看到,在海外,大厂的模式就是用最强的算力、更多高质量的数据以及投入更多人力,去做一个更好的模型。我们在春节前看到,特朗普上任后的第一天,就有了所谓的 “星际之门”,他们试图用最强的算力和算力资源,为未来美国的 AI 发展奠定基础。这是在他们整体条件较好的状态下采取的方式。
但是对于我们来说,更多的是在现有条件和基础之上,做了很多算法侧的优化。所以在 DeepSeek 火了之后,在海外,包括主流的 AI 圈子里,大家都在讨论一个话题:我们不一定非得用原来那种 “大力出奇迹” 的方式,能不能在算法效率上有所提升?这其实是 DeepSeek 给全球 AI 界带来的最大启示。所以对于未来整个 AI 的发展来说,我觉得这可能是非常重要的一点。DeepSeek 的创新技术能力、强化学习的探索方式,会对全球未来 AI,特别是大模型训练的技术层面产生影响。
另外,对于中美之间的 AI 比较,我们也一直在关注海内外大模型的进展,大概有两三年时间了。原来,大家可能更多关注的是,比如 OpenAI 也好,或者是 Meta 也好,他们做出什么样的模型,不管是闭源的、开源的,他们可能在引领全球 AI 的发展。但是在 DeepSeek 出现之后,能够看到中国的工程化能力很强。所以在去年年底,包括谷歌的前 CEO 等很多 AI 大佬都在不同场合提到,中国的 AI 发展,包括整体技术实力,在逐渐与全球水平接近。然后这一次的 DeepSeek 模型又进一步让我们看到,中国的 AI,不管是工程化能力,还是整体技术实力,依然很强。
这不仅给了我们对中国未来大模型及 AI 产业发展很强的信心,对于海外来说,从投资角度,全球投资人也开始更关注中国 AI 技术实力带来的机会。我觉得这一点从投资角度来看,是后续非常值得关注的。我们在整个春节期间也能看到,包括中概股,前两天港股的整体上涨,核心还是围绕 AI,围绕 DeepSeek 这条主线。这是从中国资产的投资机会角度看到的表现。从海外来看,像木头姐,她是全球比较有影响力的投资人,她在一个访谈里提到,DeepSeek 出现后,她会更紧密地关注中国的投资机会。我觉得这一点对于我们后续观察来说是非常值得关注的,即全球投资人未来怎么看中国的 AI 以及中国 AI 带来的整个中国资产的机会。
问题 3:高盛报告指出,DeepSeek 的崛起标志着 AI 投资逻辑从硬件转向软件,中概科技股因在应用层的优势被超配。您是否认同这一判断?中国资产的投资价值是否会凸显?
孔蓉:其实对于高盛这个观点,我们基本上也有类似的看法。在去年,我们就不断提到,在整个应用时代,中国存在投资机会。原本市场担忧并关注的一点是,我们的基础模型能力究竟有多大的代表性。但是从 DeepSeek 的模型出现后,从全球 AI 的发展态势来看,大家都能看到,中国的技术能力和工程化能力非常强。
而且,我们这次是开源的。虽然我们的 DeepSeek 模型在推理侧与 OpenAI 的模型能力相当,但是 OpenAI 是闭源的,也就是说,它以较高的 API 价格向全球开发者销售。而我们这次基本上是开源的。开源在历史上有非常多成功的经验,它更重要的意义在于能够让整个开源生态获得全球的认可。这对于中国 AI 的发展变得极为重要。这也是 Meta 非常着急的原因,因为 Meta 也采用开源路径,而且一旦整个生态能够构建起来,其带来的整体机会、影响力以及产业升级的机会都会更大。
从整个投资机会来看,其实我们关注到,在过去的移动互联网时代,我们看到了许多成功案例。当进入比拼产品能力和应用能力的阶段时,中国涌现出了许多优秀的公司。在移动互联网时代和互联网时代,我们见证了一众互联网巨头的崛起,在短视频时代,又诞生了新的互联网和平台公司。这一次,我们同样看到了这种可能性。在基础模型能力已经呈现出较强竞争力之后,对于应用端,我们需要给予更多关注。而在应用端,中国的应用工程化能力和技术能力在全球相对更具优势。所以,无论是从目前 DeepSeek 引发的市场反应来看,还是因为基础模型能力得到增强,有了更具代表性的模型之后,都意味着未来应用落地变得更可预期,大家也会更多地将目光投向应用端的机会。
问题 4:DeepSeek-V3 的低成本训练是否将引发算力需求新变革?投资上,算力相关产业链的增长预期是否会发生改变?
孔蓉:我们看到,在 DeepSeek 的技术报告里,提到其之前的模型训练可能只用了相对较低的成本,大概不到 600 万美金。如果和 LLM 相比,LLM 的整个成本可能不到 DeepSeek 的 5%。所以,节前整个市场对算力板块的反应非常大,波动明显。不论是 A 股还是美股,美股中的英伟达一度下跌了大概 17%。但我们必须强调,对于未来 AI 的发展,算力依然是非常重要的基石。
这里所说的不到 600 万美金的数字,更多指的是单次训练的 GPU 成本,其中不包含原有的试错成本、研发成本以及数据方面的成本。所以总体成本其实并不低,只是单次训练成本提到的是 600 万美金左右的水平。另外,我们来讲讲第二个问题,即对于后续整个算力需求该如何判断。目前,大家围绕英伟达以及整个算力板块,更多关注的是训练端的算力需求情况,整个创业板块的趋势也围绕着模型训练侧。
不过,一直有很多投资人关注未来在推理侧,当 AI 全面应用起来后,推理算力的需求会是怎样的。我认为答案是明确的。DeepSeek 带来了性价比很高的 API 成本,这让很多潜在的中国 AI 应用在今年和明年有更多机会落地。如果应用能够落地,那就意味着可能会有更大量的算力需求,这是毫无疑问的。
从市场角度来看,市场很敏锐。节假日期间,美股算力板块下跌之后,后续又出现了补涨和反弹,这其实反映了一个情况,或者说是一个悖论,即杰文斯悖论。在煤炭时代、半导体时代都出现过类似情况:在第一阶段,消耗成本(如能源成本)很高;到了第二阶段,前期成本开始下降时,后期反而会有更多需求,整体总需求依然非常大。对于算力来说也是如此,杰文斯悖论同样会在算力板块及投资机会中出现。所以,后续我们可能更多会关注两个方面:一是推理侧算力的未来机会;二是国产算力的机会。这两天市场已经有所反映,在推理时代,国产的、拥有更多专利的相关公司,其算力机会正在显现。