就医前先问AI,已成为越来越多的人在拿到体检报告后或出现身体不适时的第一选择。因此,“专家智能体”正成为新一轮医疗AI大模型竞赛的焦点。
多名受访业界人士认为,“专家智能体”有望推动优质医疗资源更普惠、可及,但无论是在互联网医疗还是医院场景下,专家的数字分身均不能取代专家做出诊断决策。
“目前,在医生智能体这个赛道上,各个医疗大模型研发团队都在比谁的考试分数更高、哪个智能体回复得更快,但却忽略了严肃医疗场景首先需要确保诊断的安全性,然后是有效性。”医联/未来医生创始人、CEO王仕锐在接受第一财经采访时说。
医疗大模型应用引发临床安全与伦理争议,其中决策错误的责任归属问题在“专家智能体”的研发和应用中尤为凸显。专家们的顾虑仍待进一步回应:面对大模型决策过程的“黑箱”,智能体会不会顶着他们的名义“一本正经地胡说八道”?
“专家智能体”赛道火热
所谓“专家智能体”,即以AI大模型等技术为底座,结构化专家团队的诊疗经验,复刻其专业语料、诊疗习惯以及临床决策框架和依据,形成专家的数字分身。在业界人士看来,我国优质医疗资源供给和知名医学专家服务能力有限,“专家智能体”可以协助医生拓展诊疗边界。
“病人病情千变万化,并不能完整照搬教科书和指南,在这种隐性的诊疗思路和经验沉淀上,专家和普通医生就拉开了差距,这就有了专家AI智能分身的用户需求。近一年多以来,大模型推理能力的提升和训练模式的迭代,让医疗垂直大模型得以‘理解’医学思维和医疗决策逻辑,实现可信的辅助决策,这使得定制化的智能体模拟医生的临床推理链路在技术上更具可操作性。”一名受访医疗大模型研发人士表示。
一份由信通院等机构最新发布的研报数据显示,2025年我国医疗大模型市场规模接近20亿元,在行业爆发期间,预计以高达140%的年平均增长率,于2028年突破百亿元。仅今年前四月,国内新发布医疗大模型已过百,远超2024年全年的94个、2023年全年的61个。
尽管目前该行业头部企业均已陆续相继推出了AI医生产品,但随着通用型AI大模型应用推广,仅仅作为健康管理助手的“AI医生”吸引力有所下降,入局者们开始思考能否推出可以真正“一比一还原专家诊疗”的专家数字分身。根据前述研报,“专家AI智能体”已成为基于大模型技术的主要应用场景之一。
在国内,最先动起研发念头的往往是一些已经拿到互联网医院牌照的企业和“大三甲”医院。根据中商产业研究院预测,2025年我国互联网医疗行业市场规模将增至4799亿元。
一篇由斯坦福、麻省理工大学等研究人员日前发表在《新英格兰医学杂志》(NEJM)人工智能子刊上的研究文章,评估了逾百名非专业人士对AI生成医疗建议的感知。研究发现,这些参与者无法区分AI生成的回答与医生的回答,甚至可能在没有标注来源的信息中,主观认为AI生成的医疗回答在全面性、有效性、完整度等方面表现更优。该研究警示,AI“幻觉”叠加用户感知“幻觉”可能导致治疗延误或失当。但当线上答复标注医生来源、受到专家监督时,用户对信息的接纳仍会倒向专家侧。
“也就是说,能够找到多少专家合作、训练出多少专家智能分身,关乎互联网医院核心竞争力的重塑。”前述医疗大模型研发人员说。
医生参与的动力则是因为他们的诊疗效率可以因此提升。
“AI智能体是‘躲在’优秀的医生背后,而非取代他们。过去,患者可能无法第一时间选择到合适的科室,即便找到了合适的科室,专家在真正开始问诊前不得不花费许多额外或重复的精力。”王仕锐说。
“通过医生智能体的辅助,具体来说,在采集病史、预检分诊到专家诊疗之间,额外增加智能体分流之后,专科专家就会自动落入诊疗流程的第四个环节,诊疗效率进而能够得到提升。”王仕锐以“未来医生”问诊大模型举例表示,用户提出问题后,首先由问诊大模型接诊或快速应答,进行用户的意图识别;随后由全科医生及其AI智能分体进入病史采集环节;对患者进行第一次分流;接着大模型的“分拣性技术”会将患者匹配到相关多个学科的“专家智能体”并通过“专家智能体”间的MDT(多学科会诊)并出具综合诊断建议,这是进行二次分流;最后通过人机协作,大模型会再将患者转诊给某一科室的专家及其智能分身,由专家团队的在线医生最终开具医嘱。
专家诊疗的精准性也可能受益于智能体的介入。比如,有临床专家反映,对于主诉病情时,医患双方语言体系不衔接的问题,熟悉医生本人诊疗思路的AI智能分身可以做好前期“翻译”工作;与此同时,如果多学科“专家智能体”的前置介入并开展AI会诊,可以减少专家依据固有知识体系而发生诊断“偏倚”。
记者还了解到,目前,一些头部医院已开始将“专家智能体”延伸至患者随访和医联体内部基层医院医生的培训中,以期推动专家级的诊疗能力向基层医疗和家庭场景中的复制和推广。
专家的顾虑
尽管临床专家们期待通过AI大模型提高诊疗效率,但当大模型研发团队找上门,希望以其临床经验定制化地开发出一款智能体时,医生的参与意愿可能并不高,更不要说,他们最终还需要为智能体的诊断“签字”并担负医疗责任。
专家们的顾虑并非无的放矢。
首先,“专家智能体”往往是根据医疗垂直大模型“蒸馏”产生的小模型,大模型所学习的知识体系和采用的推理路径直接影响了“专家智能体”的决策精度。
其次,有受访业界人士透露,在专家“小模型”训练时,专家语料的获取可能是通过“拿着录音笔记录专家的问诊流程”这一比较原始、存在“数据噪音”的方式。
此外,一些临床专家忧虑医疗大模型在推理过程中的“黑箱”特性。比如,决策路径不透明,复杂的运算逻辑难以解释,错误发生时难以追溯根源等。“传统法律体系通常将AI视为工具,其决策导致的损害责任多由医生或医疗机构承担。”中国医院协会信息专业委员会相关专家提出。
“‘逻辑黑箱’问题和‘AI幻觉’是当前AI大模型面临的两大关键问题,直接影响模型的可信度、可用性和可控性。”王仕锐同样提到。
换言之,“负责任的专家智能体”需要向专家和用户“开黑箱”——明确规则并确保数据的权威、可靠和推理过程的可溯源。
对于用户,目前,在一些“专家智能体”线上问诊中,往往会在用户界面上标注每一句答复是由智能体还是专家团队所作出的,并给予循证医学的知识链接,以进一步增进诊疗双方的互信。
对于专家,王仕锐提到,正是因为任何一次错误建议在医疗领域都可能威胁患者生命,所以,AI大模型真正地理解医疗并“构建安全与有效性综合评测标准”是获取专家们信任的关键。
在此基础上,还需要保证训练模型所使用的规则库质量、医生的权威性等,无效数据或者低效数据越多,越有可能产生误判、误诊的概率。王仕锐认为,相较于寄希望于通过大量数据去灌模型之后的“智慧自然涌现”,“专家智能体”的开发应该将更多精力投入到大模型技术架构的搭建上。
“在经AI和医生团队过滤之后,我们每天都会有1~2个病例会需要专家亲自做出答复,专家需要非常了解和信任AI才能做到这一点。”王仕锐说。建立起高度信任关系的前提是专家深度参与到模型开发与迭代中,王仕锐打了一个比方:“就像专家教他们身边的学生一样。”
他所提及的技术路径是:在前期开发中,基于医疗指南、临床路径、白皮书、论文等进行模型训练,确保了诊疗的准确性和一致性,然而细腻程度还不足,此时需要复制专家临床经验、学习专家智慧,实现诊疗方案的个性化和实用性;在后续迭代中,专家每天需要根据他们看到的真实患者的情况给予额外的和在指南中无法体现的反馈,这些经验的总结会再沉淀到大模型之中。
不过,也正是由于专家需要对其智能分身进行授权、背书、签字和复盘,一种业界观点认为,尽管专家被允许线上线下多点执业,理论上同一专家可以在不同问诊平台上均构建自己的智能分身,但他们的精力可能仅足以胜任一个或几个问诊平台上的工作量。
目前,专家们线上问诊的工作量还有可能因为诸多技术难题,被进一步放大。比如,由于AI医疗大模型多模态识别能力尚不理想,对于患者所上传的,不同尺寸、像素和色温的影像资料,AI大模型难以精准识别或可能出现识别偏差。为了避免“专家智能体”做出错误判断,有医疗大模型研发人士表示:“所有需要用眼睛观察的皮肤科病例,我们都会请医生在最终签字前,先肉眼核对一遍影像资料。”
通过AI真正产生增量价值的企业需要具备一定的条件。
马斯克曾邀扎克伯格助其收购OpenAI。
Meta宣布对人工智能部门进行重组,把Meta超级智能实验室拆分为四个部门。
阿里通义千问:多个产品升级,Qwen-Image图片编辑模型即将上线;腾讯混元3D世界模型1.0推出Lite版本。
英伟达推出全新Cosmos世界模型;OpenAI CEO表示,计划在未来5个月内将算力集群扩容一倍。