分享到微信

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。

DeepSeek发布更新版V3模型编程能力大大提升丨从华尔街到陆家嘴

第一财经2025-03-26 10:14:45

作者：上午市场零距离 ▪ 从华尔街到陆家嘴责编：张慜恺

DeepSeek周一低调发布了6850亿参数的AI开源模型DeepSeek-V3的更新版本V3-0324，加强了模型的编程能力，在Hugging Face上线并取得MIT许可证，可免费用于商业用途。该模型可以在消费级硬件上运行，例如配备M3 Ultra芯片的苹果Mac Studio，打破了大模型必须依赖数据中心的传统思路；同时采用“专家”模块，仅在特定任务中激活部分参数，显著降低算力需求；并引入多头潜在注意力（MLA）和多标记预测（MTP）技术，输出速度提升80%。有AI研究者在社交平台X上发布评测指出，V3-0324模型在所有基准测试中都取得巨大进步，可能已超越Claude 3.5 Sonnet，成为最强大的非推理模型。