机器人开始成为今年世界人工智能大会(WAIC2025)的主角,这是WAIC自2018年首次举办以来的第一次。
包括智元、宇树科技、银河通用、灵初等在内的几乎所有人形机器人公司都有在上海世博展览馆设立展台,展示它们的机器人在过去一年中取得的进展。与一年前比,这些机器人的本体,即身体硬件变化并不大,形态依然以双足人形、轮式人形为主,但软件部分开始出现范式变化——让机器人可以从遥控进化到自主行走。
包括智元、腾讯、商汤、生数科技等在内的公司,都推出了应用于指导机器人行动的感知行动模型,或用于预测下一步环境状态的世界模型,这些模型都意在解决机器人与环境的交互问题,帮助机器人决定如何在真实物理世界中行走和执行动作。其中腾讯的加入可能是今年机器人领域的最大变量,它已在该领域投入7年,比现有多数人形机器人公司都久。
相较而言,大模型公司则低调很多。百川智能和零一万物都没有参加这次大会;MiniMax和智谱除了设展台,没有新品发布或产品进度更新;月之暗面则与另一家公司共用展位——只占据了整个展台的一个侧面;只有阶跃星辰在展会期间推出了新一代多模态模型Step 3。
参与WAIC2025的模型类公司中,有一半公司在展示其模型对构建agent类产品的支持能力,阿里巴巴、腾讯、百度、亚马逊都给出了它们的agent开发平台,以及可以帮助普通用户低代码地开发一个应用程序的AI Coding工具。另一半,就是在为机器人提供具身智能模型。
大模型公司的低调与这个领域的节奏有关——它们基本都在今年上半年交出了追赶DeepSeek的成果。就在WAIC2025举办前一个月,国内估值最高的两家大模型公司MiniMax和月之暗面都刚刚才发布其类DeepSeek的模型。其中MiniMax一步到位发布了类DeepSeek R1的推理模型M1,月之暗面则发布了类DeepSeek R1前身——DeepSeek V3——的模型K2。在DeepSeek的模型矩阵中,V3是个普通的预训练模型,而R1是基于V3进行强化学习后得到的有推理能力的模型。月之暗面内部人士对第一财经「新皮层」称,月之暗面将在接下来的某个时间推出类R1的推理模型。
MiniMax和月之暗面目前正在争夺开源模型社区的第一名。两家公司分别声称,它们在开源社区取得了优异成绩,接近或超越DeepSeek。其中,MiniMax称其M1模型目前在Artificial Analysis榜单的开源模型中排名第二,仅次于DeepSeek R1。而月之暗面称,其K2模型的综合表现在另一个名为LMArena的榜单中已经超过DeepSeek R1,成为开源模型的首位。
目前阶段,大模型领域最具代表性的两家公司的精力都在争夺P(Professional)端专业开发者的注意力,而非C端。这可以解释大模型公司为什么在WAIC2025上没那么高调,简单说,大模型竞赛没有熄火,只是战场转移了。
以下是我们认为WAIC2025期间值得一听的行业洞察:
具身智能
星动纪元创始人兼CEO陈建宇
人形机器人真正做到大规模、高产值的商业化,差不多在今明两年。规模化生产的标准线是万台,这不是指整个行业,是指我们一家,(达到)这个数量级基本上就是头部的工业机器人公司。
宇树推出了3.99万元的人形机器人,这是因为它面向拳击、文娱等用户找到了商业化场景,它的降价不会对整个行业普遍产生压力。星动纪元正往工业方向探索,我们跟宇树做的不算同一类事情,我们是全尺寸,更大,性能更强,有双手双脚,需要它真的干活,能够做灵巧的操作。
智元机器人合伙人、具身业务部总裁姚卯青
过去一年,我们在实践中得到了很多苦涩的教训:
第一点,机器人还是要回归到执行器本身,高频跟随、高精度跟随以及低延迟的执行器至关重要。我们还需要高精度高分辨率的力控,实现工业场景里的作业。
第二点,传感器不仅需要在多维度信息上有效融合,在标定、时间同步以及多机之间的一致性也非常关键。
第三点,本体的构型很重要。算法与模型再强,也无法替代一个高自由度灵活本体带来的优势,我们希望本体将越来越逼近人类的构型,同时提供更灵活的自由度。最后,机器人本体中传感器、软件链路上的各种误差会层层叠加、不断放大,最终变成算法难以承受的痛点。
这正是我们在迈向大规模应用的过程中,必须直面的核心挑战之一,也是我们为什么要执着追求量产一致性的根本原因。
前腾讯混元大模型技术负责人、Video Rebirth CEO刘威
世界模型需具备模拟、预测和探索三大核心能力。世界模型和多模态模型的区别在于:
第一,多模态模型擅长理解和生成内容,但缺乏对环境的整体建模与预测能力,属于感知智能,世界模型则追求对环境更深的因果认知与推演;
第二,多模态模型的交互是被动响应,需要由用户触发,世界模型可在内部生成交互式环境,主动预测变化;
第三,多模态模型为一问一答的单步输出交互,世界模型则支持长序列的行动规划。
亚马逊应用科学、前沿人工智能与机器人部门负责人陈曦
得益于最近一轮AI 与机器人热潮,愿意在机器人硬件上投入资源的公司变多了,我们有了更多可用的实体机器人平台,可以在上面运行模型、采集数据。但归根结底,没有什么比让机器人在真实环境中自主运行、亲自采集的数据更有价值。
Physical Intelligence(Pl)联合创始人、UCBerkeley副教授Sergey Levine
未来我们可以将强化学习技术融入到VLA模型中,以提升鲁棒性与性能。VLA模型拥有广泛的泛化能力,而基于强化学习的专家系统能在特定任务上达到极高的熟练度。通过将高效的强化学习方法生成的数据「蒸馏」进通用模型,我们有希望推出更可靠、性能更强的机器人系统。这类研究仍处于早期阶段,但我认为它非常有前景。
Intrinsic(Alphabet)科学与Al事务负责人Stefan Schaal
机器人发展的关键在于路径选择:是追求快速落地的专用机器人,还是深耕通用型机器人的长远目标?
现在,在工业领域专注于特定任务,会越来越频繁地应对所谓高混合、低产量(High Mix, Low Volume Production)的生产挑战,频繁的变化要求模型快速适应,在半个小时内重新训练模型勉强可以接受,但如果需要数小时甚至数天,就难以忍受。短期内的泛化与基础模型构建至关重要,关键在于权衡要走哪条路。我认为所有方法都合理,多元并行的路径探索要优于单一模式。
蓝驰创投合伙人曹巍
我们走访海外机器人团队的时候,发现他们的产品迭代速度比国内的平均速度慢50%左右。中国跑出来的具身智能团队很有可能是全球最好的企业。
美团龙珠合伙人王新宇
中国具身智能领域不是泡沫太大了,反而是泡沫太小了,我们投的钱太少了。中国有硬件优势,有望引领这个产业的发展,我们应当投入更多的钱。
光源资本创始人、CEO郑烜乐
未来一年左右的时间,整个具身智能行业都要回答一个问题:形成单位泛化能力所需要的成本,是不是符合规模经济的特征?你多长时间可以完成产业端落地?
Agent
Flowith市场负责人拐子
首先我认为一个合格的Agent要在技术定义上满足四个要素:主动思考、规划路径、调用工具、长期记忆——用户可以通过这几点判断一个所谓的「Agent」是否符合标准。通用Agent在这个基础上更进一步,能处理各种事情,甚至要能感知自然环境、和物理世界交互。
Flowith最终想做的是一个AI时代的终极创作工具,Agent、画布、知识库,其实都是我们产品当中的一环。单就Agent而言,我们想做的是创作领域的Agent,并非通用Agent。通用Agent要有和物理世界交互的能力,比如你让它给你点外卖,它不仅要帮你下单,还要送到你面前来,在理想情况下,就像《钢铁侠》里的贾维斯一样。而我们所定义的「创作」领域,既包括用AI撰写研报、制作PPT、制作网页、拍摄短片等专业场景,也包括发朋友圈和小红书、日常聊天等生活化的文字表达,还涉及跨模态创作。用户可以在移动端、Web端、PC端完成这些事情。
腾讯云副总裁、腾讯云智能及腾讯优图实验室负责人吴运声
to B和to C的智能体开发平台差异很大。to B在于它有非常多严肃的场景,我们需要用非常多的手段保证严肃问答的准确率以及引用的正确性;to C的特点是要让用户使用起来很方便,即便能力差一点。
关于Agent的记忆机制,如果仅机械存储用户过往(如一周或一个月)的全部聊天记录,并在后续交互中全盘调用,会因大量一次性、临时或无关信息的干扰而影响效果。因此,如何从长期记录中提炼出对后续问答真正有价值的内容,是当前短期与长期记忆研究中需要不断攻克的关键方向。
Lovart CTO陈志博
生成式AI会大幅扩展个人能力边界,形成「超级个体」, 让普通人无需设计、编程等专业背景,也能完成高质量创作。
阿里巴巴国际数字商业集团AI业务副总裁骆卫华
面向生产环境的Al Agent对输出质量有很高要求,通用Agent几乎无法满足。垂直场景对特定关键数据识别和分析精度的要求远超头部模型直出结果。除模型能力,Agent的可用性对工程框架、底层Al Infra的要求也很高。
大模型
生数科技CEO骆怡航
视频生成需要保持生成效果的一致性,这一诉求与应用场景深度相关。对大众而言,用手机拍摄的视频多为日常记录或自娱自乐,对画面连贯性、元素稳定性的要求较低。但在广告、动漫、影视等商业与专业创作中,一致性是不可妥协的基础——人物形象、核心道具、场景氛围等要素必须在全片所有镜头、所有时长里保持连贯,甚至每一帧的细节都需符合设定逻辑。一致性是实现视频生成商用的前提,若无法满足,相关技术便难以在产业级场景中落地。
视频生成的爆点不会突然出现。在广告和动漫行业,AI视频的渗透率在逐步提高,2到3年后可以实现全流程AI化;影视行业到明年可能有30%至50%的AI渗透率。长期来看,在5到10年后,所有内容和文化相关产业可能会完全实现「生成式AI化」,到那时,AI将成为创作的常规工具,「内容是否由AI生成」不再是关注的焦点。
可灵AI产品及运营负责人李杨
当前视频模型还正处于快速迭代阶段,3个月或半年后,模型性能和当下相比会有明显差异。AI工具产品需要在模型能力和用户需求之间找到平衡,既要不断探索模型能力的边界,也要满足用户的实际需求。
AI产业
光源资本创始人、CEO郑烜乐
创业公司最大的机会是在模型的水面上。如果你是礁石,可能会被淹没,但是如果是船,模型能力上涨,你也会上涨。怎么变成船?我认为有很多的方法,有专业数据的循环、对场景的理解(指对工作流的拆解)、独特的交付方式等等。在大厂的射程外也是非常重要的。
2025年上半年,中国的AI投资热度在大幅度提升,融资额同比增加45.3%,投资事件数同比增加59.9%,财务投资人占比58.6%,又回到了主流。大家开年以后都在跑,很多项目都在抢,很多人开始要抬估值了,跟去年完全不一样。现在这个市场给我们的感觉是非常像移动互联网09到14年的时候。
九合创投创始人王啸
在中国做AI应用要有闭环的数据,这样才能产生独立应用的机会。在一些相对垂直但又不太垂直的行业,形成大量自有数据,而且这个数据随着用户的增长对基模能力的提升是显著的,就能建立壁垒,也不会被基模公司吃掉。编程的数据太公开了,你能做,别人也能做,大模型公司做的更有优势。
云启资本合伙人陈昱
目前国内比较确定的机会还是在视频领域。还有就是上一代SaaS的重新洗牌——在中国大模型的加持下用AI全部重新做一次,更便宜、更智能、效率更高。
通用型的AI应用特别火热,问题在于最后基模公司肯定会自己下场做,而且它们有巨大优势,因为一旦上量,总的token成本会非常可怕。我听说Cursor的毛利是负的,别看它现在这么厉害,到后面也会面临盈利的挑战。
美团龙珠合伙人王新宇
AI应用的口子,我个人体感首先是太难了,比具身要难。这个行业难投,我们希望创始人懂技术,此外也要懂产品、懂年轻人,或者懂新的地域(现在更多是面向海外市场做AI应用)。
君联资本联席首席投资官葛新宇
我们要换一个思维来看,AI发展中的一些「脏活苦活」不是大厂和基模公司会下场做的,比如数据标注,适合一些没有太多产业背景、大额资金投入的创业者。如果还能结合具体的细分场景,再跟上技术发展的节奏,是更好的。
蓝驰创投合伙人曹巍
国内做大B生意,核心成功要素的构成是非常复合的,不是一个纯产品、纯技术驱动的生意;反而一些非常工具类导向的小B生意更好做,这也是国内最市场化的生意。我们也尝试着做了一些AI应用方面的投资,应该讲做国内市场的都活得很苦,卖掉的基本也是成本价卖掉的。我们也有一些卖掉的公司,创始人去了某大厂做战略规划。此外我还认为,当下模型侧还有很多能力没有被挖掘出来,模型还要再迭代一波。
蓝色光标CEO潘飞
目前,营销行业正在从工具效率革命走向生产模式革命。最终,可批量化的内容将实现AI全自动生产,而有人性洞见的内容会更有稀缺价值。AI发展当前的进度仅加载10%到15%,未来将诞生AI时代原生的营销公司。
无问芯穹发起人汪玉
AI基础设施的能效评价指标已随技术演进发生变化:在AI 1.0时代,核心指标是「算力」(TOPS),通过垂类数据训练垂类模型,即可支撑简单任务;而进入AI 2.0时代,「token」成为核心生产要素。目前,端侧应用的算力需求与现有能力之间仍存在10倍左右的差距,云端的算力使用效率也有进一步提升的空间。
在这次国内人形机器人有史以来最大规模亮相的背后,人形机器人与具身智能也正迎来“技术突破加速期”与“产业落地关键期”。
2025世界人工智能大会上,小朋友对机器人展区表现出浓厚兴趣,现场展示了各类机器人产品和技术发展现状。
投资人认为行业存在泡沫,本质是因为他看到了行业乱象的存在。
“‘大哥大’当时虽然贵,但用的人数还是很多。而现在人形机器人大部分还是用于数据采集、科研、导览。”
机器人成了智驾人才新出路。