首页 > 新闻 > 评论

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

算力、算法与数据,谁是AI近期发展的驱动力与瓶颈

第一财经 2025-11-16 20:49:23 听新闻

作者:李运奇    责编:任绍敏

在算力、算法与数据构成的AI宇宙中,何种力量正主导着未来的航向?

11月的华盛顿特区,秋意正浓。为期四天的IEEE(电气和电子工程师协会)国际数据挖掘会议(ICDM 2025)15日落下帷幕,这场跨越二十多年的学术盛会,会聚了来自全球数据科学、AI与机器学习领域的顶尖学者与业界精英。会议举办了超过40场专题研讨会、技术报告和“BlueSky Track”创新论坛,勾勒出了AI发展的前沿图景。一个核心的思辨贯穿始终:在算力、算法与数据构成的AI宇宙中,何种力量正主导着未来的航向?

三角关系的精妙平衡

大会在承认算力是当前AI发展不可或缺的引擎的同时,提出了更为深刻的见解:算力、算法与数据三者构成一个动态的平衡体。强大的算力不仅驱动着大型模型的训练,更赋予了研究者大规模测试与验证新算法的能力,从而加速了算法本身的进化。另一方面,与会者也提出,数据的角色正从被动的“燃料”转变为主动的“瓶颈”——互联网公开的人文数据红利见顶,虽然多模态数据、合成数据还能支持今后几年AI的发展,但高质量的、专业领域的可确认的精标数据(如医院的临床事故、工厂的设备故障等)仍然稀缺,将成为决定下一代AI模型“智商”与可靠性的关键。

有人在讨论中以玩笑的口吻举了个例子:在未来实验室,一位年轻工程师发现了一份21世纪初的全球天气原始日志。当同事们致力于构建消耗海量算力的巨型模型时,她选择清理并语境化了这些粗糙的古旧数据。数据苏醒后,揭示出了关于城市洪水的隐藏模式,其洞见超越了任何复杂模型的推演能力。她由此顿悟:真正的力量并不完全源于调整模型的参数,也在于对数据源头本身的梳理与理解。在算力至上的时代,数据才是那位被遗忘的真正英雄。

三位守护者的启示录

在AI的宇宙中,三位守护者执掌着不同的权柄:算力是开凿山河的巨人,以其磅礴之力为一切奠基;算法是编织法则的精灵,在逻辑的脉络中赋予智能以形态;数据则是奔流不息的星河,既是智慧的源泉,也暗藏着误导的漩涡。本届大会的两场核心主题演讲和其中一场专题研讨,恰如三位守护者的低语,揭示了它们之间相生相克的奥秘。

1.算法精灵的编织:打通联结的“关系基础模型”。

斯坦福大学教授尤雷•莱斯科夫(Jure Leskovec)试图致力于调和三大元素。他开场便直指核心痛点:“我们都见证了LLM在文本、图像上的爆发。但企业80%的核心数据——交易、供应链、客户关系——都是结构化的、关系型的网络。为何预测‘欺诈’或‘流失’仍需数据科学家耗费数月,编写数百行代码搭建脆弱的模型?”

在他看来,AI需要两个大脑:LLM构成一个“推理大脑”处理非结构化数据,而企业却缺乏另一个能理解数据间复杂关系的“预测大脑”。二者的割裂,是效率的瓶颈。随后,他展示了其团队打造的“关系基础模型”(RFM)——这并非取代LLM,而是一个与之完美互补的、专为结构化数据而生的预训练模型。它如同一个精通SQL的AI,只需指向数据库并提出诸如“预测未来30天客户流失风险”的查询,几秒内便能输出结论,无需特征工程与模型微调。

其背后的创新,在于将数据库表转化为“时序关系图”,并通过图结构Transformer实现跨表、跨时间的推理。莱斯科夫强调,这一算法的突破,其意义在于极大地降低了对领域专业知识与漫长数据准备过程的依赖,从而将宝贵的算力从重复劳动中解放出来,专注于更本质的创新。他的演示证明,在零样本条件下,RFM在多项任务上的预测准确率已超越精心训练的监督模型,且速度提升千倍。这预示着,精妙的算法设计,正成为释放算力潜力、化解数据复杂性的关键钥匙。

2.数据星河的导航:以网络模型驾驭生物复杂性。

哈佛大学教授约翰·奎肯布什(John Quackenbush)则是一位在生物医学的浩瀚数据星河中谨慎航行的导航者。他开篇便警示:“生物学不是一条直线,而是一团乱麻。”他认为,面对基因组、转录组等产生的高维、嘈杂的组学数据,单纯依赖算力进行蛮力计算,或期望AI仅从数据中就能“自发”领悟所有规律,是危险的简化论。

“原始数据远远不够,”他阐述,“我们必须依靠‘网络’这一模型,为数据赋予结构和意义。”在他的描绘中,网络模型如同一个精密的滤网,能够从数据的噪声中筛选出真实的信号,揭示微小的遗传变异如何通过复杂的相互作用,最终导致疾病的表型。他展示了如何利用网络模型整合多模态数据,将环境暴露因素与基因表达联系起来,从而实现更精准的癌症风险评估与亚型分类。

奎肯布什的核心论点是,在生物医学这类强机制约束的领域,未来的AI发展必须是“模型引导”的。高质量、专业注释的数据是必不可少的燃料,但若没有正确的算法模型(如网络模型)作为导航图,再强大的算力也可能在数据的迷宫中得出荒谬的结论,陷入“垃圾进,垃圾出”的陷阱。他的工作昭示着,数据的价值,必须通过与之匹配的、具有领域洞察的算法模型,才能被真正解锁。

3.算力巨人的务实派:金融数据海洋中的精准捕捞。

来自宾夕法尼亚大学的富兰克林学者Wesley Leeroy和他的合作者建造的AI模型则代表了算力巨人在具体领域——金融数据挖掘中的务实应用。他们的研究聚焦于如何利用强大的计算架构(如GNN、CNN、GRU),从海量、多模态的金融数据(如结构化财报、非结构化SEC文件)中精准识别欺诈等异常模式。他们的模型在辨别真伪上达到92%准确率。

他们的工作体现了另一种驱动逻辑:在特定场景下,丰富且高质量的专业数据本身,可以推动AI能力的边界。他们以谷歌DeepMind技术架构为依托而建造的模型,正是依靠算力去处理和融合这些复杂数据源。然而,他们同样清醒地指出,原始金融数据充满噪声、缺失值与尺度不一的问题。若不加清洗地投入算力巨炉,只会锻造出有缺陷的模型,在真实世界中表现堪忧。

因此,Wesley强调严格的数据预处理、特征工程和模型设计,这实质上是通过算法上的努力,来确保数据质量,从而让每一份算力消耗都产生价值。他们的成功案例证明,在金融这类数据驱动属性极强的领域,AI的进步来自一个紧密的循环:专业数据提出需求——算法进行优化与净化——算力实现规模化计算。在这里,数据是起点和终点,算法是效率的倍增器,而算力则是将这一切变为现实的坚实基础。

ICDM 2025大会清晰地表明,AI的未来并非由单一要素主导。算力是当下的硬通货,是驱动一切的能源;算法是未来的智慧钥匙,致力于更高效地利用能源与数据;而数据,特别是高质量的专业数据,则是决定AI应用深度与可靠性的基石。三者构成的,是一个彼此需要、相互塑造的飞轮。短期内,算力的瓶颈依然突出;但长远看,能够巧妙平衡这三者,让算法精妙地调和算力与数据矛盾的研究,将最终引领AI穿越瓶颈,抵达更广阔的新前沿。

(作者系美国马里兰大学教授)

举报

文章作者

一财最热
点击关闭