分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

DeepSeek小版本大升级，新R1模型代码能力媲美OpenAI o3

第一财经 2025-05-29 11:03:35 听新闻

作者：刘晓洁责编：刘佳

又一次“开源的巨大胜利”。

5月28日晚，第一财经记者获悉，DeepSeek小助手在官方交流群中通知，DeepSeek R1模型已完成小版本试升级，紧接着就在29日凌晨，官方在开源平台HuggingFace上发布了DeepSeek-R1-0528。

目前官方还未更新模型卡以及公告介绍，但不少开发者已经第一时间进行了测试，发现这个“小版本升级”并不小，海外开发者感慨“一如既往的DeepSeek低调风格”。

众多测试发现，DeepSeek-R1-0528目前提升最为明显的是代码能力，在代码测试平台Live CodeBench中，其性能几乎媲美OpenAI重量级的o3-high模型。

有开发者表示，这是“开源的巨大胜利”。

不过，或许受限于测试的速率限制，目前开发者群体中公认编程能力最强的Claude-4系列模型并不在测试榜单中。

AI博主同时也是KCORES开源硬件项目联合创始人@karminski-牙医进行了个人的测试，基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试，测试内容是用一个橙色小球撞击物体，从效果显示，平面的橙色漫反射、撞击效果方面是R1模型更好。

但有开发者对第一财经表示，这类能力看个例是不准的，或许要等评测榜单和一个月后的口碑见分晓。

除了代码能力，有开发者总结了DeepSeek这次更新其他亮点，包括改进了写作任务，更自然、格式更好。也有用户反映，用最新模型写作正常很多，没有强烈的“量子力学元素”了。

@karminski-牙医同时对最新模型进行了文本召回测试，发现在上下文32K以内比之前的R1模型要好不少，但是在60K的上下文中效果下降了不少。这意味着在32K以内针对给定的材料使用新R1模型提问，回答的准确度会更好。

在RI这次“小版本试升级”后，有海外网友表示，如果这是R1，那么R2会有多好？DeepSeek官方针对此前的V3模型和R1模型都做了一次迭代，但仍未放出大家期待的R2模型的消息。

此前3月，DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型，DeepSeek介绍，新版V3模型借鉴R1模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，此外在前端开发、中文写作等方面进行了能力优化。

有业内人士猜测，是否模型架构不更新，只是增加或调整了训练数据，DeepSeek就不将更新定义为大版本升级，而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。目前DeepSeek并未对此进行任何解释。

除了上述模型能力，开发者也希望未来DeepSeek R2若进行升级能大幅提升上下文长度，以及增加多模态的能力，毕竟这两个方面的能力对于生产使用很重要。

第一财经广告合作，请点击这里

此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。
如需获得授权请联系第一财经版权部：banquan@yicai.com

刘晓洁

推理速度提升最高85%。

DeepSeek能“看见”了。

谷歌更新Gemini生态帝国。

DeepSeek击败了所有开源模型，推理约落后前沿闭源模型3–6 个月。

一财最热