
{{aisd}}
AI生成 免责声明
华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码,Triton的底层可调用CUDA,也可调用其他GPU语言,包括AMD的rocm以及国产算力芯片语言,如寒武纪的思元590芯片和海光信息的深算一号(DCU)内置的HYGON ISA指令集。LLM的训练短期内虽未完全脱离CUDA 生态,但DeepSeek NSA的推出使其初步呈现出与CUDA解耦的趋势,并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了DeepSeek-R1 等国产模型,并取得了高效推理的效果,华泰证券认为,伴随海外算力的受限,针对国产算力的优化或将有持续进展,值得重视。
IBM认为市场低估了企业级应用的“复杂度”。
论文延续DeepSeek一贯的风格,在工程化层面将性能优化推向极致。
阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking、微软推出下一代AI芯片Maia 200芯片……
“MODEL1”很可能已接近训练完成或推理部署阶段。
业内猜测这或许就是DeepSeek V4的研究路线图。