首页 > 新闻 > 一财号

分享到微信

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

手术机器人已接近自动驾驶L3级,“具身智能”会是医疗AI的完全进化体吗?

第一财经 2025-12-02 09:51:36

作者:健闻咨询    责编:郁赟

医疗AI领域正在积极探索具身智能技术在手术、康复等场景中的应用,但技术成熟度、数据不足及伦理挑战等因素使其商业化落地面临诸多困难。

当医疗AI的数字空间即将被大语言模型穷尽,另一种更为大胆的设想正在逼近现实。

今年以来,多款带有“具身智能”称号的医疗级产品扎堆发布,涵盖了手术、康复、检验检查、院内物流等多个线下真实场景。

这些产品的共同特点是,兼具能够自主决策的“大脑”和执行指令的物理本体。通俗点说,他们更像是在大模型技术框架下完成升级的医疗机器人。

“过去我们做机器人控制的时候,要算动力学方程、运动学方程,要做电机控制。但有了大模型以后,我们就可以把电机轨迹,转化成token,形成输出指令。”

一位医疗机器人公司的创始人告诉《健闻咨询》,具身智能的方法论已经成熟,难点在于数据,数据体量不够,就无法完成训练。

在制造和物流等行业,已经出现了类似的具身智能样板:人形机器人开始执行搬运作业,仓储机器人具备初步的环境理解能力……但在医疗领域,由于风险、精准度、伦理等一系列客观限制,具身智能产品落地的形态和速度要远远落后于其它行业。

有趣的是,在产品链条的两端,代表技术前沿的科研人员和导向产品落地的投资人站成了泾渭分明的两派。

前者坚信,一旦搭建出新的模型底座,再辅以相应的数据语料,就能泛化出策略和动作,从而创造出不同医疗场景下的具身智能产品;后者则认为,具身智能当前的技术能力还无法支撑严肃医疗场景中的大多数任务,且面临伦理挑战,商业价值存疑。

我们已经无数次见证这样的对立——当某种新技术浪潮的确定性,撞上医疗的保守和偏执,这次的故事会有不一样的答案吗?

落地场景受限

智源研究院院长王仲远在此前的媒体采访中曾举过一个例子,一个两岁小女孩不会撕糖果包装纸,但是通过模仿手机视频里演示的拆糖果过程并不断尝试,最后她找到了包装纸的锯齿部分,成功将其撕开。

这就是具身智能的完整形态——视觉识别、动作预测、目标判断、尝试、失败、调整、再尝试。

如若按上述案例来定义具身智能,则它至少包含两层含义。一是其物理实体能够借助本体(系统)在真实世界中自主完成任务;二是本体的边缘计算能力必须足够强大,能够实时反馈至物理实体,不完全依赖云端。

目前,在整个医疗行业,最接近具身智能概念的产品主要集中于两条细分赛道——手术机器人与康复机器人。它们虽同属于“医疗机器人”范畴,但对空间感知和执行的能力要求截然不同。

从康复机器人来看,由于康复需要面向不同患者、不同康复阶段,场景多变,指令千差万别,因此机器人不仅要理解动作意图,还需根据实时反馈调整自身操作策略,这使得康复场景成为测试具身智能泛化能力和动态适应性的关键战场。

“现在康复机器人的运动能力没有问题,主要是卡在智力上。”国内某康复机器人公司的业务负责人告诉《健闻咨询》,大模型技术主要解决的是机器人视觉和语言模块的交互能力,但对于运动控制还没有太好的解法。

“比如你跟他说,帮我去拿一杯水,他能听懂你的意思,也能感知到水杯在哪里,但怎么把这个动作完成,还需要再做尝试。”

目前,康复领域具身智能的成熟应用主要集中在步态控制等较为受限的场景。比如康道医疗自主研发的机器人产品,可以根据患者的实时步态,自动调节助力强度,有效抑制异常步态形成,提升神经损伤患者的行走康复效率。

而在手术机器人领域,对于具身智能的争议则更为多元。

上海现代服务业联合会大数据中心主任徐云程告诉《健闻咨询》,从她近期调研的情况来看,目前手术机器人的智能化程度已经开始接近“自动驾驶L3”级别,即在既定的手术方案下,机器人能够高精度地执行整台手术,医生只需要在旁边监督,发生意外情况时接管即可。

在她看来,相比于康复等场景,手术场景更为标准化,“器械一旦进入人体组织,通过视觉或力反馈感知后,它所发出的动作指令,在空间上是比较细微的,且不需要太多的柔性处理。当然,它对动作精准性的要求也会更高。”

中国康复技术转化及发展促进会秘书长杨涵对手术具身智能的看法要更为保守。在他看来,如果把具身智能定义为源于智能体与其所处环境之间持续的、动态的物理互动,目前手术具身智能目前还有很长的路要走,当前市面上的主流手术机器人大多还是手术辅助为主,缺乏自主的意识和动手能力,甚至还不能算作是具身智能。

“手术过程中需应对组织形变、出血等诸多动态变量,需要极高的实时认知和决策能力,目前AI算法和学习能力还有很多局限性。反而是在非侵入的康复机器人领域,力反馈技术和交互体验或许能够在短期内取得比较大的进步,容错率也比较高。”

但无论是在哪一个医疗细分领域,杨涵都认为,要到2030年左右,才可能出现类比自动驾驶L4级别的具身智能产品。

世界模型未解

和传统机器人相比,具身智能的优越性不仅在于机器人操作上的升级,更重要的是整体功能和认知能力的飞跃。

传统医疗机器人多依赖预设程序执行固定动作,适应性较差;而具身智能则需要融合视觉、触觉和力觉等多模态信息,自主判断、调整动作策略。

在手术中,这意味着机器人可以精准执行复杂路径,完成微创操作中的力控要求,并根据突发情况即时调整操作;在康复训练中,能够根据患者反馈调整训练力度、幅度和节奏,实现个性化、动态化干预。

因此,无论是手术机器人还是康复机器人,都绕不开一个核心概念:世界模型。

最近,全球人工智能领域最具影响力的研究者之一、美国国家工程院院士李飞飞在其发布的长文《从语言到世界:空间智能是AI的下一个前沿》中提到,人类认知的核心不仅仅是语言,而是对三维空间的理解和操作能力,从停车到接钥匙,从设计建筑到发现DNA的双螺旋结构,都依赖于空间智能。

她把大语言模型比作“黑暗中的文字匠人”,只能教会机器读写,而基于空间智能创造的世界模型,则会教会机器观察和建造。

国内专注于具身智能研究的智源研究院也给出了类似的技术路径判断——从语言到多模态,再到具身智能,最终到世界模型。

尽管世界模型为具身智能的持续进化提供了理论上的可能,但它在医疗行业却面临更多挑战。

一方面,医疗环境更加复杂。光是人体解剖结构,就远比工业零件复杂得多,更遑论动作的随机性、器官的可变性、病灶的差异性等问题。在医疗领域,世界模型必须理解的是一个高度动态且没有标准件的世界。

另一方面,医疗的安全边界比所有行业都窄,容错率更低,这也就意味着过去那套靠“大量数据喂养,再通过人工标注来反复校正,最终做出产品”的路径,在医疗具身智能的范畴上很难复用。

商业价值存疑

如果说技术路径是医疗具身智能的“纵轴”,那资本态度就是决定其发展速度的“横轴”。

投资人对医疗具身智能的判断是,医疗场景对安全要求极高,监管周期也较长,商业化验证将面临很大难度——这意味着医疗具身智能的投资周期或许将远超主流基金年限。

多位从事医疗AI的投资人均向《健闻咨询》表示,不太关注医疗具身智能的项目,更别提具体的投资意向,“这条赛道还在很早期的阶段,技术突破和商业模式都有很大的不确定性。”

“在医疗垂直方向的投资里,我们很少会谈到‘具身智能’这个概念,也很少有人会用这个概念来定义自己的产品或者赛道。”远毅资本投资人唐轶男直言,具身智能当前的技术能力还无法支撑医疗场景中的任务。

她进一步指出,目前业内最先进的手术机器人均为 “主从式”,即医生是操作主体,机器人是工具,并不属于具身智能的范畴。即便是最接近自动化的 “骨科机器人”,本质也是“导航+精准定位”,手术规划与关键决策仍需要由医生完成。

投资人们并非单纯看衰技术,也会考虑回报周期。在自动驾驶行业,智能程度可以从L2逐渐过渡向L4,但医疗里却没有“过渡级别”,每个阶段都必须足够安全。

“通用领域对于具身智能犯错的容忍度相对较高,但在医疗中,任何微小错误都可能导致严重事故,涉及巨大的法律和伦理责任。”

一位专注于数字医疗赛道的资深投资人表示,具身智能的 “自主学习”与医疗法规之间存在根本冲突,按照法规要求,所有用于临床的医疗产品必须是“固定且经过充分验证的”,但一个会自我演变的AI系统并不具备这一条件。

更重要的是,从投资方的角度来看,医疗具身智能的商业价值还存在不确定性。

“在学术领域,已经出现了一些对手术机器人自动化的探索,例如对自动缝合的研究,从研究的角度看起来很‘酷炫’,但我们从投资的角度来判断,这些研究未必有商业化落地的价值。”

唐轶男认为,医疗创新不能陷入“拿着锤子找钉子”的陷阱,即不必刻意追求所谓的“具身智能标准形态”,而是要围绕临床真实需求,用硬件、算法和感知技术解决问题。

一个更符合未来的猜想是,医疗具身智能的真正突破,或许不会来自某个“跨时代的产品”,而是来自一个个细分场景被逐个验证、逐步累积。

当助理式机器人能够在康复场景稳定运行,当自动采血成为普遍可用的基础能力,当手术机器人在“人机协同”的框架里完成更多可量化的提升,这些不起眼的进展会共同构成未来的行业基石。

具身智能为医疗行业描绘了超越传统自动化的未来,然而,这条通往智能之路布满荆棘,医疗领域极高的可靠性与安全性要求,构成了其商业化和大规模落地的最大挑战,这条通往成功的道路注定坎坷而漫长。

举报

文章作者

一财最热
点击关闭