记者:吴洋洋
编辑:王杰夫
7月27日,腾讯在世界人工智能大会(WAIC2025)上发布了3个具身模型:多模态感知模型、规划大模型以及感知行动联合大模型,以及一个囊括了这3个具身模型和云计算能力的Tairos平台。这些模型的发布,有望结束行业里机器人靠遥控才能行走的历史。
自2018年成立机器人实验室Robotics X起,腾讯在机器人领域就时有产品形态消息传出,先是2021年发布了首个名为Max的机器狗产品,然后是去年9月,腾讯又展示了一个叫「小五」的接近人形的机器人,它有着接近人的上半身,但下身是个有着4条腿的轮式结构。
进入2025年以来,腾讯又投资了至少2家具身智能的机器人公司,包括3月领投智元机器人、6月参投宇树科技,此前,腾讯还投资过上一代机器人公司乐聚机器人和优必选。
包括京东、美团在内的互联网大厂也都在布局具身智能和人形机器人。但7月27日的发布会表明,腾讯会以不一样的方式加入具身智能赛道。
7月27日的模型和Tairos平台发布结束后,腾讯首席科学家、腾讯Robotics X实验室主任、福田实验室主任张正友接受了包括第一财经「新皮层」在内的采访。
这是腾讯首次对外阐述它设立机器人实验室7年来的探索和认知,以及在腾讯的机器人战略中,它想要在这一新终端设备中扮演什么角色——它想做的是机器人大脑,而不是本体,而且,它想把大脑以及算力卖给机器人公司。无论它此前向外界展示过多少机器人硬件形态,那些都是腾讯机器人实验室为探索理想的机器人形态制作的原型机,目标不是推向市场卖给用户。
机器人时代会有机器人的基础设施、操作系统出现,腾讯似乎想要扮演这样的角色。不过张正友认为,就目前阶段而言,无论机器人的具身模型还是硬件形态,都还处在探索阶段,他认为,完全类人的双足、自然语言口语交互设计,并不是最优的。采访中,他阐述了腾讯在机器人领域会做什么,以及不做什么。
以下是张正友与包括第一财经「新皮层」在内的媒体采访记录,经编辑:
机器人公司负责本体,腾讯提供大脑
提问:跟其他竞品比,Tairos平台的优势和特点是什么?
张正友:一个是模块化,每个厂家都可以选取它自己想要的模块,因为每个厂商可能有它自己的特长,它擅长的模块,就不需要我们这个平台了。比如有的厂商有感知模块,但长程规划做得不够好,那就可以用我们的规划模型。
另一个特点是,我们这个平台是比较完整的,包括左脑、右脑和小脑,厂商只需要很少量的数据(就能用得起来)。
提问:Tairos平台目前收到了多少合作需求?腾讯在这个方向上的节奏是怎样的?
张正友:我们调研了全国的机器人厂家,不光是上海、华东地区,还有深圳、北京、西部地区的成都等。去年年底,我们开始做这个事(注:做开放平台)之前,先认真调研了行业,差不多跑过六十几家企业,发现中国大量的机器人公司其实很难同时在软件和硬件层都做得很好,因为具身智能本身投入非常大。
腾讯Robotics X机器人团队成立已经超过7年了,调研发现,大家对我们做这个事(具身智能平台)都非常欢迎。所以一开始,我们主动出击去选取了一些高配合度的机器人企业,然后我们跟它们深度地结合去做一些case。
我们上半年的想法就是先去找一些企业去打磨产品,这也是我们过去做产品的思路,1.0版本一定要去找几个企业深入落地。到7月我们把平台发布出来,以及参加这次展会,是处在一部分产品标准化了之后慢慢开始铺量的阶段。
我们做事情的节奏就是稳扎稳打,今天发布了3个模型,还有仿真平台,机器人公司已经可以把它们的机器人放到仿真器里试试看行不行。我们的模型既可以在真实机器人上运作,也可在虚拟环境用。
提问:现阶段重点还是模型能力?
张正友:模型能力还有仿真环境,这里面其实要解决的问题挺多的。比方说在操作智能里面,机器人对力的感知和触觉感知是非常重要的,但这类数据的质量还没有标准化,这类数据差不多要达到一毫米左右的空间分辨率,但目前仿真环境还不能很好地支持这一点。
另外,每个模块,无论感知、规划、大脑、小脑、数据采集……每个环节都有很多需要提升的空间。从大的技术角度看,模型对3D的世界认知,动态世界包括物体材料等各方面如何建模,也就是世界模型,其实还属于初步阶段。因为机器人的世界是要能够在真实、虚拟空间里操作的,比如你拍张照,上面有个茶杯,你根据这个照片建立一个3D模型,看起来很真实,但机器人能不能根据这个3D模型把杯子抓起来,是个问题。
大语言模型也能做一些规划,但它是通过文本来理解世界,对3D世界的理解没那么深,现实世界的很多东西用文字是描述不出来的。比方说动物没有语言,但它还是能在3D世界活得很好。规划不一定需要语言,没有对3D世界的理解,就很难在运动中做规划。
提问:腾讯今天发布了3个模型,一个动态感知、一个规划、一个感知行动联合模型,哪个模型是更核心的?技术成熟度有没有一个排序?跟同行比,腾讯在哪个模型上可以跟同行拉开代际差异?
张正友:这三个模型都需要,就像我们的左脑、右脑和小脑,三个必不可少。但如果每个模型你都要去开发,就需要很多算力、数据和各方面的资源,开发速度也是一个问题。我们的目的不是说要超越所有机器人公司的模型,而是提升一些公司的机器人智能,而且我们目前的模型是比较全的。
腾讯意在取得具身智能前沿技术,而非商业化
提问:腾讯一向对商业化谨慎,为什么在具身智能上商业化积极?
张正友:腾讯Robotics X 2018年年初成立,那时候是没有商业化目的的。那时候都找不到一个能够做机器人的硬件厂家。所以我们必须要自己从头去组建硬件,全部都要做。
2023年下半年开始,整个行业有很大变化,因为GPT开始有很多机器人企业出来。我们现在的方向是通过跟第三方合作来帮助他们形成一个更完整的机器人产品,其实要区分产品化和商业化,商业化听起来就是要赚钱,但我们不是以赚钱为目的的,我们希望我们的模型变成一个比较稳定的产品,来赋能机器人这个行业。
提问:推出Tairos平台后,腾讯自己的机器人产品还继续开发吗?
张正友:我们本来就没有产品线,我们之前开发的机器人都是研究原型,无论是最早的机器狗Max、养老机器人小五,都是原型,都是为了研究和验证。比如做养老机器人,是因为这是个很难的场景,里面的安全性、鲁棒性挑战都很大。做机器狗是为了探索地面不平的复杂环境。我们用比较难的场景驱动研发,目的不是把它们变成一个产品或者商业化。
我们更大的目标是把机器人的智能水平和本体里的某些核心技术,比如数据传感器技术评估,把这些能力继续往前推进。假如一开始你就停留在了Max上,后面就会没有精力去做其他东西。
提问:腾讯为什么不做双足的人形机器人?
张正友:我不是对双足人形机器人有什么仇恨,只是双足人形这个形态已经在那里了,你不需要花更大精力去思考,只需要去控制它就行了,这是其中一个思路。
另外一个思路是,我们人的双足是在几百万年进化里产生的,是一个让我们能够在复杂环境里活下来的形态,但今天我们的人居环境已经跟以前不一样,今天的人居环境里大部分都是平地,你没必要操作效率很低的双足。所以为什么我们去做Max,这个机器狗是既有轮子又有腿,它不是为了仿生,而是要去想有没有更好的形态能够高效地在人居环境中行动。我感兴趣的是人居环境,不是去荒野,人居环境里是不是会有更高效、更理想、更佳的机器人形态,这是我们要去探索的。
第三个原因是,假如我们以人形作为机器人的标准,我们人没有进化出一个屏幕出来,但机器人如果有一个屏幕,它在交互信息时会非常快。用语言交互可能一分钟智能讲100个字,但用屏幕可能它一下子就可以在屏幕上呈现300个字,交互效率就会提升3倍。那你为什么不把现在的技术用到机器人上面?为什么一定要用语言去对话?
机器人的形态还有很多需要探索的。
提问:腾讯已经在机器人领域探索了七八年,过程中也有很多阶段性成果,但一直没有像今天一样做商业化或产品化,你们如何判断一项技术是否可以商业化了?
张正友:现在这个时间点(开始产品化或商业化)可能跟整个行业的发展有比较大关系,8年以前,我们实验室刚成立的时候,大家知道有哪家机器人公司?那个时候整个机器人行业都还处在上一个阶段,主要做工业机器人的阶段。当时我们实验室做的很多事情都是非常超前的。
从2023年开始,整个机器人行业发生变化,市场出现了大量机器人公司,尤其是本体公司,我们发现我们之前很多东西能够逐渐用得上,在这个时间点上,我们考虑把过去的一些成果给产品化,更多还是来自于行业的需求。
但是我们不会放弃前沿技术的探索,还是会继续往前推进,因为假如我们停留在眼前这个阶段半年,感知模型、规划模型或者感知行动模型就会落后,我们还要继续往前推出更前沿的版本出来。
提问:腾讯是否会通过投资的方式促进生态合作?
张正友:投资不是我管的,但是通过投资让整个生态发展起来,这是最重要的。
提问:距离具身智能的iPhone时刻预计还有多久?
张正友:这个很难估计,我估计可能还要三五年。我2018年做的就是一个10年规划。
提问:对于腾讯在机器人领域的角色,7年前你们在想机器人这个事的时候,跟今天的想法相似吗?
张正友:那时候没有(成为具身智能平台)这样的想法,那时候只是在考虑前沿技术的研究。就是说研究是不能被产品化去引导的,通过产品引导研究是做不成的,你的技术不可能成功。
基础研究其实是腾讯一直在做的事,我们有很多技术储备,我们也有专门的实验室,它未必是以产品化为目标,我们要做的是一个中国第一流的科技公司。