当OpenAI和谷歌在生成式AI赛道狂奔时,Meta却因Llama 4的失利陷入被动,现在,这一巨头正准备用两套截然不同的方案破局。
4月,Llama 4发布后的种种失误表现将Meta推上了风口浪尖,同时被批评的还有Meta首席人工智能科学家杨立昆(Yann LeCun),作为曾经的图灵奖得主、有着数千亿美元的资源,却坚决反对主流LLM路线,而目前Meta已经在海外AI大厂的竞争中落后了。
在这个时间点,杨立昆看起来需要用新的成果来证明自己。北京时间6 月 12 日,他亲自出镜介绍了Meta最新的人工智能模型 V-JEPA 2,这是一种不同于当前主流Transformer架构的“世界模型”,旨在帮助机器和其他AI助手理解和驾驭周围的世界。
但这条“非主流”路线真的能成功吗?看起来Meta CEO扎克伯格(Mark Zuckerberg)也不确定,就在这两日,他被曝亲自下场招人,组建新的AI团队,并高薪挖来谷歌DeepMind的首席研究员,另一边投资千亿元押注初创公司Scale AI,邀请CEO加入新的AI团队。
面对当前AI战略的失利,扎克伯格显然选择了“不把鸡蛋放在一个篮子里”。有消息称过去两个月他已回归“创始人模式”,扎克伯格认为,与其他科技巨头相比,Meta不仅有能力,更有责任率先实现AGI。
杨立昆押注“非主流”模型
自大模型崛起以来,杨立昆就一直唱衰自回归生成路线,而目前以ChatGPT、Gemini为主的模型大都是沿着这一路线发展壮大的。他认为,虽然自回归LLM充斥了整个AI界,但存在事实错误、逻辑错误、不一致、推理有限等缺陷。
在杨立昆看来,让机器理解物理世界与让它们理解语言是截然不同的,自回归 LLM 仅仅是世界模型的一种简化的特殊情况。而世界模型则真正提供了一个虚拟的现实世界,人工智能可以参考它来理解世界,预测其行为的后果,因此它将能够计划一个行动方案来完成给定的任务。
为了实现世界模型,杨立昆认为应该放弃当前的生成模型,支持联合嵌入架构,放弃强化学习,支持模型-预测控制。V-JEPA 2就是这一路线的最新成果。
根据官方博客,V-JEPA 2基于Meta在2022年提出的联合嵌入预测架构(JEPA)构建,2024年,Meta发布了第一个版本V-JEPA,在此基础上,V-JEPA 2 改进了动作预测和世界建模功能,使机器人能够与不熟悉的物体和环境交互以完成任务。
首先需要理解什么是杨立昆认为的世界模型。在团队看来,预测世界将如何回应我们的行为,这种能力是人类一直以来都在运用的,尤其是在规划行动以及如何最好地应对新情况时。而世界模型需要有这种能力。
“当我们穿过陌生拥挤的区域时,我们会一边朝着目的地前进,一边努力避免撞到沿途的人或障碍物。用炉子做饭时,我们会考虑锅还要烧多久,或者是否要调低火候。”Meta在博客中介绍,我们内在的世界模型为我们提供了这种对世界的直觉,还充当着一个内在模拟器,让我们能够预测假设行动的结果,最终根据直觉最能实现目标的方式,选择最好的行动。
上述身体直觉并非成年人经过多年教育获得的,而是幼儿在能够说出完整句子之前,就通过观察周围的世界培养出了这种直觉。V-JEPA 2模型也是通过这种“观察世界”的方式进行训练的。
据介绍,预训练阶段,团队使用了来自不同来源的超过 100 万小时的视频和 100 万张图像,这些视觉数据有助于模型了解世界的运作方式,包括人与物体的互动方式、物体在物理世界中的移动方式等等。
在预训练阶段之后,模型已经展现出与理解和预测相关的关键能力。随后,基于预测能力,世界模型可以规划行动。Meta表示,V-JEPA 2拥有12亿参数,可以帮助机器人或其他AI 智能体在物理世界中运行。
根据Meta的说法,V-JEPA 2比英伟达的Cosmos模型快30倍,英伟达也试图发展与物理世界相关的人工智能。
杨立昆认为,世界模型将为机器人技术开启一个新时代,让现实世界中的AI助手能够在不需要海量训练数据的情况下,帮助人们完成家务和体力劳动。
“很高兴看到 V-JEPA 2 如何改变这场游戏。”在X平台官方的评论区中,有网友表示,在这场大模型的战争中,不一样的声音看起来会更有趣。
不过,也有人认为,“解决魔方应该是这些世界/机器人模型的图灵测试,通用智能模型已经做到了吗?”世界模型要如何证明其能力,目前Meta还没有给出直观的答案。
扎克伯格“另起炉灶”
杨立昆所坚持的这一路线未来真的能与当前主流的LLM大模型一战吗?短期内谁也没有答案。但因反对主流路线,且没有给出更优的成果,杨立昆承担了不少来自内部和外界的压力。
就在4月,Meta发布了最新的Llama 4模型,但随后被认为性能不佳、测试作弊,同时内部员工直接辞职,引发争议。在目前的各大模型榜单中,Llama 模型也已经落后于同类竞争对手GPT/o系列、Gemini 和Claude,在开源社区中也面临国内DeepSeek和 Qwen的压力。
外界将Meta在大模型大战中落后的原因归结于杨立昆,作为AI团队的决策者,却不相信当前的技术路线,作为图灵奖得主、神经网络的先驱的他似乎过于自信和教条主义,导致了Meta当前的局面。
不过,杨立昆曾经表示,他尝试了20年的自回归预测,彻底失败,才不看好LLM路线。但至少当前不少前沿的公司在LLM路线上做出了成绩,也逐步在推动AI能力的进展。
此前外界曾猜测,杨立昆是否会为此离职,但从他此次亲自发布世界模型来看,地位还很稳固。但扎克伯格并不淡定,他近日正高调下场创建一个新的AI团队“超级智能”,看起来是多面布局,以规避在这一浪潮中落后的风险。
据外媒消息,扎克伯格计划为超级智能组招募约50名顶尖 AI 专家,并将向这些人员提供为期数年、价值数千万美元的薪酬方案,包括股权激励。扎克伯格将亲自进行初步接洽并全程跟进,他的目标是“让Meta成为AGI领域的领导者”,并将其能力整合到Meta的全系产品中。
就在6月12日,有消息称谷歌 DeepMind 首席研究员杰克·雷(Jack Rae) 预计将加入Meta 的超级智能团队,他此前在谷歌 DeepMind 工作了两年,负责 Gemini 的“思考”相关进展。另有消息称,AI语音初创公司 Sesame AI 的机器学习负责人约翰·沙尔克维克(Johan Schalkwyk)也已被 Meta 招募。上述二人都将会加入Meta的“超级智能”团队。
前两日,Meta还被曝斥巨资数十亿美元(有消息称是150亿美元,未被确认)投资初创公司Scale AI,CEO汪滔(Alexandr Wang)和多位研究人员将加入“超级智能”。Scale AI的主要业务是数据标注,目前估值超过百亿美元,预计今年营收超过20亿美元。在过去的几年里,OpenAI 等AI大厂一直依靠 Scale AI 来生成和标记用于训练模型的数据。
扎克伯格认为,与依赖融资的对手不同,Meta强大的广告业务现金流足以支撑其在AI领域的巨额投入,并认为Meta有能力建设拥有世界顶级算力的数据中心。此前在财报中,Meta预计2025 年总资本开支将在640-720 亿美元之间,高于年初的指引,公司透露会持续增加数据中心和基础设备投资以支持AI 相关工作。
一面是杨立昆执着探索的、可能颠覆现状的“世界模型”,另一面是扎克伯格重金押注、沿主流方向加速追赶的“超级智能”,这场关乎未来AI格局的豪赌,Meta选择了以双线并进的方式布局,成败或将决定这家公司能否回到AI巅峰。
阿里千问与DeepSeek入选全球AI开源贡献榜前十;Meta推出新模型V-JEPA 2;英伟达、三星计划投资机器人初创公司Skild AI。
①国产具身大模型首次获得汽车制造全场景验证;②2025全球人工智能技术大会在杭举办;③广西在AI技术研发与应用领域获重要突破。
AI从数字世界跨向物理世界时必须突破数字世界的隔阂。
①黄仁勋谈中美AI竞争:中国的Deepseek和阿里通义千问是开源模型中最好的;②国产AI编程工具加速“上新”,阿里云内部AI辅助代码生成比例近40%;③腾讯多业务全面接入DeepSeekR1-0528。
①夸克健康大模型通过副主任医师职称考试;②SAP宣布接入阿里通义千问;③快手:第一季度可灵AI收入超过1.5亿元。