首页 > 视听 > 速递

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

DeepSeek发布更新版V3模型 编程能力大大提升丨从华尔街到陆家嘴

第一财经2025-03-26 10:14:45

作者:上午市场零距离 ▪ 从华尔街到陆家嘴    责编:张慜恺

举报

DeepSeek周一低调发布了6850亿参数的AI开源模型DeepSeek-V3的更新版本V3-0324,加强了模型的编程能力,在Hugging Face上线并取得MIT许可证,可免费用于商业用途。该模型可以在消费级硬件上运行,例如配备M3 Ultra芯片的苹果Mac Studio,打破了大模型必须依赖数据中心的传统思路;同时采用“专家”模块,仅在特定任务中激活部分参数,显著降低算力需求;并引入多头潜在注意力(MLA)和多标记预测(MTP)技术,输出速度提升80%。有AI研究者在社交平台X上发布评测指出,V3-0324模型在所有基准测试中都取得巨大进步,可能已超越Claude 3.5 Sonnet,成为最强大的非推理模型。

一财最热
点击关闭