
{{aisd}}
AI生成 免责声明
3月1日,DeepSeek于知乎开设官方账号,发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,并披露成本利润率关键信息。
文章写道:“DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。”为实现这两个目标,DeepSeek的方案是使用大规模跨节点专家并行(EP),但该方案也增加了系统复杂性。文章的主要内容就是关于如何使用EP增长批量大小(batch size)、隐藏传输耗时以及进行负载均衡。
文章还率先披露了DeepSeek的理论成本和利润率等关键信息。“假定GPU租赁成本为2美金/小时,总成本为$87,072/天。……如果所有 tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为$562,027,成本利润率545%。”(一财科技)
AI不应该只是通过预测下一个词该说什么来“写”出答案,而应该通过观察真实世界来“推导”出答案。他希望打造一个能像科学家一样追寻真相、逻辑严密、不出差错的“智慧大脑”。
壹评级:云算力服务全面涨价,驱动产业价值重估
阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking、微软推出下一代AI芯片Maia 200芯片……
“MODEL1”很可能已接近训练完成或推理部署阶段。
给AI“水管”加智能阀。