这一轮的人工智能爆发,很大程度上是大力出奇迹。
通过堆叠更多算力,大模型呈现令人吃惊的效果。其中的标志性企业是OpenAI。不过,现在它的新一代大模型推出时间比业内预期的要晚,大模型发展似乎暂时放缓了。
“支撑模型能力迈向下一代的算力系统还需要研发和构建。”在近日的世界人工智能大会期间,无问芯穹CEO夏立雪这样说。
大模型慢下来
人工智能的发展经历了数次浪潮起伏。
“从2012年AlexNet论文发布,我们之前从1兆的模型到现在几十亿参数的规模,形成了非常快速的发展,人工智能现在的发展基于算力高效的集成。现在GPT模型背后的基础transformer的结构,都和GPU的算力硬件结构高度匹配。”夏立雪表示,可以说在人工智能整个发展的历程中,算力和算法一直处于互相促进的过程,或者是鸡生蛋,蛋生鸡的模式。
他认为,早期的模型也是被算力限制才没有发挥最大的价值,现在GPT这样的模型,在充裕的算力基础上,才可以产生值得人期待的能力。
ChatGPT是OpenAI开发的大模型,后者是业界瞩目的风向标。它的出现,引领了国内外众多企业的跟进。不过,它的GPT-5比公众预期的晚了。该公司的CEO萨姆·奥尔特曼虽然认为GPT-5相较上一代产品会有重大飞跃,但谈到上市时间则说“我们也不知道”。
在奥尔特曼看来,制约该公司大模型发展的因素就是没有足够的服务器。
“大家认为在GPT-4之后,整个算法能力的发展进入了相对放缓,甚至是停滞的阶段。”夏立雪说,问题在于背后支撑算法所需要的算力遇到了瓶颈,从而使得模型发展进入了放缓的状态,或者说支撑模型能力迈向下一代的算力系统还需要研发和构建。
在整个AI智能发展当中,算力是AI发展的前哨和基石。当下大模型发展放缓。遵循大算力、大参数规律的Scaling Law是不是到了尽头?
“任何的技术都有自己有效性的时间段。早期的Scaling Law非常的简单,它单纯只关注模型的参数量,但是后来大家发现参数量的大小,只是其中一个变量,它还包括了训练用的数据量,再后来又发现跟计算量也有关系。所以Scaling Law本身的内涵也在不断的变化。”智谱AI首席执行官张鹏对第一财经表示,“现在可能计算量更重要,它是融合了算力和数据、参数规模,最终得到的一个综合性变量,这样来代表Scaling Law。从计算量的角度来看,我们认为它还是有效的。”
简单粗暴的算力规模扩张,曾带来显而易见的技术跃迁。国内以及国外的科技巨头们,都在继续遵循上述规则,加大对算力资源的投入。这种大规模的投资往往是以亿美元起步。
OpenAI此前被爆出正与微软合作,准备构建超级计算系统“星际之门”,投资的规模可能达到千亿美元。美国的微软、谷歌、Meta,以及中国的字节跳动、阿里等头部企业在构建万卡,甚至是十万卡的大算力集群。
集群的挑战
“我们认为AI主战场,万卡是最低标配。”摩尔线程CEO张建中说。
智算中心是大语言模型训练的超级加工厂。大模型竞争激烈,缩短训练时间是企业的基本诉求。
“这个行业变化实在太快了,如果两周没有更新模型,用户可能就会流失。所以训练时间非常重要,不管多大的模型,客户都希望两周之内结束战斗,最迟要在一个月内把大模型训练出来。”张建中对第一财经记者表示。
以5000亿参数的模型为例,如果配以15TB的数据,如果只有1000P算力,那可能三年时间都难以完成模型的训练。如果想将同样的模型训练时间压缩到一个月,万卡集群是基本的配置。
“如果一家大模型公司,发现一个智算中心只500P、1000P的算力,要在这样的模型加工厂里训练出一个很有竞争力的大模型,这个难度应该是非常高的。”张建中认为,从需求来看,万卡以上的智算中心更有价值,“从今年开始,所有的智算中心肯定是,万卡是最低标配。”
智算中心的万卡集群,想要实现其算力价值最大化,其实很难。
大模型训练是一个系统工程,需要软件和硬件结合起来。单芯片的算力做不上去,就需要千卡集群、万卡集群以提升算力,这对于网络和基础设施的要求更高。智算中心配备了超大规模集群之后,最终软件能否把算力发挥出来,同样重要。
“你本身的集群调度效率怎么样?调度效率有时候会被大家忽略掉,超大规模的集群不是你的卡每时每刻都在用。大模型大规模的参数,在超大规模集群里面怎么样做模型的拆分,才能真正让算力有效发挥出来,这是非常关键的。”在世界人工智能大会期间,壁仞科技副总裁兼AI软件首席架构师丁云帆表示。
大规模的集群都有稳定性的问题,无论是国产卡还是英伟达。
“这个是大家逃避不过去的,故障率是相对比较高的。比如给你分配了10个小时,有可能实际只用了8个小时。”丁云帆说,万卡集群的故障是不是可以自动化检测出来,能不能快速恢复,都是重大考验。
壁仞用自主创新研发的技术,结合GPU的显存和CPU的内存,甚至是多节点内存的备份系统去达到这样一个平衡大幅降低故障恢复成本。软件有效算力总结起来有三点,第一是软硬结合的计算效率,第二是集群调度效率怎么样,第三是出现故障时的处理效率怎么样。
“现在随着国产GPU的落地,算力孤岛的问题可能会更严峻一点。”丁云帆表示,“像壁仞科技和很多国产卡都落地了,这又会出现新的算力池。对用户来讲有一个现实的问题,你有这么多的小的算力池,是不是能够聚合起来去训练一个大的模型?这就是异构聚合算力,但要解决互连互通和协同效率等关键挑战。”
谷歌从成为世界第一的搜索引擎,到探索出成功的商业落地路径,花了六七年时间;Meta同样花相当长的时间才实现商业回报。ChatGPT已经是历史上最快达到一亿用户的应用。
大模型也许只是需要更多一点时间。“它已经发展得非常快了,所以保持一点耐心。”张鹏表示。
同步发布了支持国有企业“人工智能+”垂类模型落地应用大礼包。
OpenAI 推出了新的结构化输出功能,使开发者能够更可靠地连接 GPT 与外部工具和 API,扩展了语言模型的应用范围。
“你从北京清河坐一站火车到张家口,电费是6毛左右;你再坐一站火车,到乌兰察布电费大概能便宜一半。”
每年“算力券”总额提升至2.5亿元,新增“算力券”支持企业购买符合杭州市规划布局的智算中心以及纳入算力撮合的合作伙伴所供给的智能算力。
支持国家超级计算天津中心结合人工智能发展需求,拓展业务领域,强化协同创新。到2026年,全市超级算力应用率达到70%以上。