
{{aisd}}
AI生成 免责声明
如果把人工智能比作一台强劲的引擎,算力就是它的燃料。而要让这台引擎持续轰鸣,需要一套极其复杂的“供能系统”。
在上海,一支平均年龄仅32岁的团队,正在建设并运维着“万卡级”智算集群。在“十五五”开局之年,这群年轻人如何为中国AI铺就算力高速路?
走进松江仪电智算中心
机柜林立,光纤密如蛛网。上万张GPU芯片正以每张每秒上万亿次的速度运转。但将一万张顶级算力卡组成一个高效、稳定的“超级AI计算大脑”,难度远超想象。
智算科技董事长孙跃坦言:“买一万张卡不是个难事,但是要让这一万张卡能够像一台电脑那样,作为一个集群整体的、高效的运转,难度更大。”
故障是常态,分钟级修复是底线
在万卡规模下,故障几乎每天都在发生。智算科技系统平台部负责人翟雨佳说:“故障是一定会发生,甚至于每天都会发生。我们当前基本上已经做到了分钟级的、秒级的去定位故障,三五分钟之内去做业务恢复。”
为了这几分钟的恢复时间,团队曾连续79天吃住在机房。一次万亿参数大模型训练突发性能抖动,四个技术组同步排查了72小时,最终锁定是异常流量挤占了带宽。问题解决后,训练速度反而提升了8%。
每个百分点的提升都是巨大价值
这种硬核攻坚,换来了实打实的财经价值。孙跃强调:“每个百分之一都很重要,每个百分之一我们都付出巨大的努力。”
而智算科技系统工程中心总监胡宝群透露,通过持续优化,集群的有效训练利用率已接近极致:“我们当前的集群的一个使用率,基本上这个卡可以用的话,就是基本上接近百分之百了。”
最宝贵的资产是人才
目前,这支团队已成功部署万卡级高性能算力集群,服务国家战略科研以及自动驾驶、气象大模型等创新企业。从不到10人起步,到如今上百名技术骨干,这群年轻人用代码和汗水为中国人工智能产业铺就了坚实的算力基座。
孙跃在采访最后说:“仪电智算要维持战略敏捷,在技术上、在市场需求上,都必须实时的感知最新的变化。”
在“十五五”新征程上,这支算力“造路者”队伍,正全速前进。