DeepSeek周一低调发布了6850亿参数的AI开源模型DeepSeek-V3的更新版本V3-0324,加强了模型的编程能力,在Hugging Face上线并取得MIT许可证,可免费用于商业用途。该模型可以在消费级硬件上运行,例如配备M3 Ultra芯片的苹果Mac Studio,打破了大模型必须依赖数据中心的传统思路;同时采用“专家”模块,仅在特定任务中激活部分参数,显著降低算力需求;并引入多头潜在注意力(MLA)和多标记预测(MTP)技术,输出速度提升80%。有AI研究者在社交平台X上发布评测指出,V3-0324模型在所有基准测试中都取得巨大进步,可能已超越Claude 3.5 Sonnet,成为最强大的非推理模型。