病理诊断是绝大部分疾病,尤其是肿瘤疾病的诊断“金标准”,是医生的医生。病理诊断耗时长,再加上我国病理医生缺口大,病理医生分布不均,如何用AI在提高医生工作效率的同时,又可以降低漏诊、误诊的风险,成为医疗行业关注的焦点。
6月30日,瑞金医院联合华为宣布开源RuiPath病理模型,意在医院降低病理AI辅助诊断部署门槛,这也成为上海医疗机构首个开源的病理模型。
此次开源的为RuiPath病理模型的核心“视觉基础模型”。根据官方介绍,该模型依托瑞金医院百万张高质量数字病理切片数据,基于华为AI全流程工具链ModelEngine进行标注、训练和模型精调而成,在业界12个主流公开数据集的14个辅助诊断任务测试中,有7个达到业界领先水平(SOTA),并已具备临床验证能力。本次开源配套提供测试数据集,覆盖了肺癌、结直肠癌、甲状腺癌、胃癌、乳腺癌、前列腺癌、胰腺癌等7个常见癌种。
中国工程院院士、瑞金医院院长宁光在现场表示,病理大模型只有真正临床应用才能产生价值实现AI普惠。
病理诊断指通过手术切除、内镜活检、细针穿刺等方式获取人体组织或细胞,借助显微镜等工具对样本进行一系列处理和观察。通常,一个病理检测需3天到5天,如遇较为疑难的疾病,加做免疫组化或分子检测,诊断时间长达7天至10天。大医院病理科培养一位合格病理医生需要5年至8年时间,但在县级医院,还无法耗费这么长时间来培养,这可能会导致病理行业的诊断质量不统一问题。
大模型的出现,给病理科的智慧化带来极大的想象空间。但要开发一个病理大模型,难度超出想象。
瑞金医院病理科副主任医师笪倩称,在病理人工智能落地过程中仍面临数据、算法、算力、存力四方面挑战。数据上,切片质量差、格式不统一及数字化医院占比低,中国有5000家医院具有病理科,但是不足5%的医院将数字化诊断应用于日常的诊断过程当中,导致模型精度受影响且数据规模小;算法上,传统标注依赖病理专业知识,成本高、耗时长且具主观性;算力上,百万级切片对应PB级数据与单张GPU显存80GB的矛盾突出,易致算力浪费;存力上,三甲医院病理数据增量大、存储成本高,数字化的门槛是高居不下。
“以瑞金医院为例,我们每天的增长切片量是6000张,所以每年的数据增量是1.5个PB。”笪倩表示,尽管困难重重,但瑞金医院不断尝试突破技术瓶颈。2023年3月,瑞金医院上线了全流程的数字化病理平台。
此次RuiPath的发布后,瑞金医院在数据层面拥有了百万张的数字切片库,数据量大,疾病的谱系全面。算力方面,首次使用了16张的国产910B的算力卡去训练百万数据,并且通过ModelEngineAI全流程工具链平台节约了80%的数据的处理周期,缩短了70%的业务上线时间。在临床实战中覆盖19个病种、上百个诊断任务,关键指标超90%,诊断效率提升至秒级。
“这次开源,也可以将瑞金医院多年积累的高质量病理数据进行训练和精调,获得临床级模型和工具,基层医院可节省数据准备、模型训练、应用开发的大量初始工作,促进病理AI辅助诊断广泛应用。”华为数据存储产品线总裁周跃峰表示,开源RuiPath病理模型,可以降低医院病理AI辅助诊断部署门槛,提升整体病理诊断水平。
在宁光看来,推动RuiPath病理模型开源,对于完善模型本身以及模型的可及性,有可能起到双赢作用。他表示,该模型可以覆盖中国每年全癌种发病人数90%的19个常见癌种,但还有10%的癌肿还无法覆盖到,开源的话,或有望覆盖更多的肿瘤诊断。
不过,RuiPath病理模型的开源虽然可以推动AI医疗平权,但如何推动更多的医院加入部署病理大模型,数据方面的积累仍存在挑战。
此前,有病理科医生对第一财经记者表示,病理切片及其扫描的质量决定了图像数据的好坏,不同级别医院、不同水平病理人员制作的切片质量差别非常大。制成病理切片全流程的检测仪器、试剂、操作等要素均会影响病理图像质量和病理诊断结果,因此每个关键环节都遵循行业规范和标准,如果没遵循好,也会影响病理图像及病理大模型的质量。医疗数据的安全与隐私保护也是亟待解决的关键问题。
广州在积极探索建设卫生健康行业可信数据空间,希望通过建设一个连接医院和企业、科研机构的公共平台承载行业可信数据空间,同时建立数据流通的系列机制。
华为又一军团诞生。
大模型DeepSeek的出现正在加速医疗领域的数字化进程,特别是在病理科,AI技术有望大幅提高病理诊断的准确性和效率,解决病理医生缺口和分布不均的问题,但仍面临数据质量和隐私保护等挑战。
百度从闭源转向开源的战略转变,反映了AI行业竞争逻辑的变化,即从参数规模竞争转向开发者生态的争夺。
“百度终于回过神儿来了。”