每经记者:林姿辰 每经编辑:董兴生
“全靠大家支持,才能顺利迈出第一步,不过晨跑最难的就是早起上跑道迈出第一步。”2月20日晚,张少霆在朋友圈转发了一则消息,庆祝商汤医疗完成过亿元Pre-A轮融资。
作为国内AI(人工智能)龙头商汤科技的副总裁、研究院副院长、商汤医疗CEO,张少霆在2018年加入商汤时,就是以“智慧健康负责人”的身份亮相的。
去年夏天,国内首个AI病理大模型PathOrchestra就出自商汤科技、西京医院及清华大学的合作团队,号称“实现了全球最广泛的临床科研任务赋能,完成了人工智能病理研究领域从‘单模专病’到‘一模多病’的跨越式突破”。近日,国内通信技术龙头华为参与发布“瑞智病理大模型RuiPath”,让病理大模型再次受到公众关注。
作为AI医疗大模型领域最具挑战性的“明珠”,病理大模型为何让龙头频频驻足?近日,《每日经济新闻》记者(以下简称“NBD”)独家对话张少霆,了解到他的看法。
商汤科技副总裁、研究院副院长、商汤医疗CEO张少霆 图片来源:受访者供图
都知道DeepSeek,但什么是病理大模型?
与DeepSeek等通用大模型不同,病理大模型专注于解决病理科医生面临的临床问题;但与宫颈癌筛查等专用模型也不同,病理大模型致力于解决多种临床任务。资料显示,PathOrchestra覆盖肺、乳腺、肝脏、食管等20余种器官,赋能百余项临床任务,是当时全球赋能临床任务最广的病理大模型。
AI病理诊断流程 图片来源:头豹研究院报告
NBD:病理大模型和DeepSeek的区别是什么?
张少霆:DeepSeek等属于语言大模型,病理大模型大多属于图像模型,也有部分是多模态模型,这是两种完全不同的模型。前者(语言大模型)通常拥有数百亿到数千亿级参数,使用不同的提示词就能胜任成百上千种不同的任务;后者(病理大模型)的参数规模则在亿到十亿级别,针对特定的下游任务,仍然需要再加入相关数据后进行微调训练,才能更好地适配这些任务。
所以,病理大模型并不是大家常说的“大模型”,它更接近传统的预训练模型(Pre-trained Model),还不能像语言大模型一样“大杀四方”,还需要往下游任务深化。
NBD:商汤医疗为什么选择做病理大模型?
张少霆:在做基于医疗图像的辅助诊断时,有一个概念叫“长尾问题”。例如,肺结节检测这类高频问题的数据丰富且容易获取,因此可以相对容易地收集到足够多的数据,来训练一个专才模型,这样的模型不需要特别庞大就能效率高且性能出色。然而,对于那些小众疾病,数据标注稀缺且难以获取。在这种情况下,传统的数据收集和标注方式就显得力不从心了。
病理大模型的优势在于,它可以在长尾问题上减少对传统数据收集和标注的需求,从而提高模型的训练效率,更好地适配并解决子问题。
回过头看,我们对病理领域的大模型研究是伴随着技术范式的变化自然而然地发生的,经历了三个阶段。2018年起,专注于胃肠和宫颈TCT(液基薄层细胞学检测)的单点应用;2021年起,与瑞金医院合作将下游任务拓展到9种不同的疾病,在迁移学习方面取得了一定的成果;2023年起,开始尝试训练病理大模型,来覆盖多达几十种“长尾”疾病。
NBD:资料显示,PathOrchestra可以赋能百余项临床任务,这能涵盖医院病理科接触到的所有疾病吗?
张少霆:这里需要定义“任务”。比如,针对病理图像进行细胞分割或细胞检测也属于不同的任务,因此我们说的100多种下游任务对应的不是100多种疾病,目前基本能覆盖二三十种疾病,像AI赋能最多的组织病理学中的胃肠小标本、宫颈TCT标本的辅助筛查,已经满足了病理科医生日常工作的大部分需求,但这些都是通过专才模型来实现的。
当下也还有很多病理切片需要医生亲自查看,例如肿瘤组织标本,需要根据病理切片进行十几种不同疾病亚型的分类和判别。目前,将这类任务完全交给病理大模型还为时尚早,因为大模型目前只具备通用的“排兵布阵式”的阵法知识,缺少逐个击破的作战能力,如果每个亚型都存在一定出错概率,十几种亚型都同时正确的概率就低很多。
图片来源:每经记者 张韵 摄
病理大模型不容易做,但能有效解决两大问题
2023年是大模型技术突破之年,当年发布医疗大模型产品的医疗企业多达数十家,资本市场曾掀起一股AI医疗热潮。但由于应用落地存在挑战,这些医疗大模型在2024年的声量明显下降。如今,当以病理大模型为代表的专科大模型登场,它们面临的挑战似乎只多不少。
NBD:开发病理大模型,面临着哪些技术上的挑战?
张少霆:挑战还是蛮多的。第一个是数据覆盖面,例如覆盖不同疾病且注重数量比例,不能只是追求总数量。比如大模型在某一疾病上的性能表现良好,但可能会影响对其他疾病的性能。我们需要找到一个平衡点,使模型能够兼顾多种疾病。第二个是大模型虽然泛化性更强、适用场景更多,但参数量大幅增加,导致运行效率降低。如何在保持性能的同时控制运行时间效率,是一个亟待解决的问题。
NBD:你刚才提到,在不同病理样本之间,病理专项模型的性能可能不同。怎么尽可能保证病理大模型性能的一致和可靠?
张少霆:体外诊断(IVD)领域常常会面临泛化性的问题。尽管商汤的病理产品已经在近百家医院实现了落地,目前观察到的泛化性表现良好,但医疗领域需要用统计数据说话。我们正在制定泛化性实验的标准。如果产品在新场景中无法直接适用,就需要利用当地的新数据(包括标注数据)进行小规模的参数微调,从而使其能够更好地适配新场景。
NBD:有医生反映,病理学样本数字化的比例并不高,这是不是个挑战?
张少霆:是的。病理数字化是AI分析的前置条件,所以如果没有病理数字化的基础设施,AI也很难在临床上进行大规模辅助诊断赋能。对于病理大模型研究,病理数字化的影响也足够深远。
PathOrchestra是基于当时国内规模最大的数字病理图像数据集训练建立的,但仅仅数据量大是不够的。如果我们回顾一下来自哈佛、微软和斯坦福的那几篇发表在《自然》杂志上的文章,就会发现数据的分布更为重要。例如,胃肠和宫颈TCT这两个领域的数据量是巨大的,但是其中有多少是关于乳腺、肝脏等其他细分领域的数据?所以病理数字化程度越高、越广泛,数据有足够的覆盖面,大模型才能均衡处理足够多元的任务,而这(数据量和数据分布)是不容易平衡的。
NBD:既然有这么多挑战,为什么还要做病理大模型?
张少霆:专有模型也面临两大挑战,首先是之前提到的长尾问题,其次是病理检测属于体外诊断,个别医院尤其是基层医院的制片流程可能不够规范,导致病理图像特征差异巨大,从而对专有模型的泛化性提出更高的挑战。
而大模型能够有效解决这两个问题。在长尾问题上,大模型至少能提供比“没有解决方案”更好的选择;在泛化性上,大模型可以作为一个编码器(encoder),提取病理图像特征后再针对某个疾病的专项诊断模型进行优化,这种机制让大模型能够更好地总结病理数据的特征,从而具备更广泛的疾病覆盖能力。
不过,需要再次强调的是,病理大模型目前还无法像语言大模型那样全面且直接地解决很多问题,更多是集中在科研领域。
医院院长们怎么看待AI潮?
医院是病理大模型等专科模型的直接买方。在张少霆看来,公司去年参与的湖北省“‘小切片’守护大民生”工程,是病理AI模型落地的标志性事件。这场发生在湖北全省医院的智慧化、数字化和AI化转型,覆盖了数百家基层医院。这一事件也预示着,病理大模型落地应用似乎已经达到了突破的临界点。
NBD:对于病理AI的落地,有人支持,有人怀疑。据你观察,医院院长们是怎么想的?
张少霆:在技术发展的过程中,总有保守派和激进派,我感觉国内的决策者目前更倾向于拥抱新技术。对于头部医院,它们不仅希望引入AI,节省医生的时间、提高诊断精度,更希望借助AI赋能其医联体医院的业务。对基层医院而言,这同样是一个节省成本的过程。
然而,医院决策采购的核心考量之一是能否带来增量收入。有时候说服决策层支持采购的难点在于,大多数AI医疗产品的卖点是帮助医生更准确地诊断和节省时间,而不是直接为医院带来新增收入或快速回本,这也是之前AI医疗产品的推广面临困难的原因之一。
NBD:你怎么看待各家医院接入DeepSeek或发布自有大模型的动作?
张少霆:在不少医院接入DeepSeek平台后,通用大语言模型在医疗领域真正带来的临床效果还有待时间验证。事实上,现在很多头部医院都基于自有的研发团队,或与合作企业一起尝试基于通用模型开发垂类大模型,打造自有品牌。在这种趋势下,曾经的“百模大战”已经逐渐演变为垂直领域的“万模大战”。从底层架构来看,这些模型大多基于开源的通用基座,且这些开源基座占据了主流地位,而在此基础上,医疗知识的注入才是关键。
图片来源:公司官网
NBD:在这波AI热中,你觉得AI是不是被神化了?
张少霆:需要具体问题具体分析。例如,早期开发的影像类模型(如肺结节检测)以及刚刚提到的胃肠病理和宫颈TCT(液基薄层细胞学检测)等专有模型,不仅没有被神化,反而可能被低估了。事实上,如今在国内的大部分三甲医院,报告撰写背后都有AI的支持。
但从另一个角度看,通用大模型的医疗价值可能确实被夸大了。这些大模型的通用性能很强,在很多任务上实现了超出预期的效果,但幻觉问题(指大模型生成的内容与现实世界事实或用户输入的指令不一致)也不可忽视。从某种角度来看,幻觉问题在通用领域或许并非坏事,因为模型可以像人一样“编故事”,但在严肃领域,尤其是医疗领域,这可能是致命问题。
实际上,目前我们在上海瑞金医院病理科应用于临床、帮助医生完成大量任务的还是商汤的专有模型,且效果已经经过了多年临床验证。
病理大模型的产业化还有多远?
2023年,多个病理大模型的海外研究项目发表在《Nature》及《Nature Medicine》上,这表明,这一领域在学术界已经非常活跃,工业界也在进行一些尝试。但需要浇一盆冷水的是,目前病理大模型的价值更多体现在学术界,而非产业界。
NBD:病理AI作为一个产品,其上市路径是怎样的?
张少霆:理想情况下,需要进行特定的临床试验并收集临床数据来进行分析,以判断其是否真正适用于临床。这需要明确具体的任务目标,例如模型在特定任务上的性能要达到多少标准,并在多家医院完成临床试验后才能进行部署。
但是,病理大模型往往号称能诊断几十种疾病,这种复杂性很难在认证中被全面评估,很难通过NMPA(中国国家药品监督管理局)或FDA(美国食品药品监督管理局)的严格认证过程,所以产业化目前还是以病理专才模型为主。
NBD:除了上市路径待完善,病理AI的商业化还面临哪些挑战?
张少霆:我们花了两年多时间和数千万元投入,才拿到肝脏CT诊断领域的全国首张三类证(三类医疗器械注册证),在病理AI商业化之前,企业需要投入极大的人力、财力、精力和时间,这是个巨大的挑战。
另外,市场教育和生态链合作也是商业化的重要环节。目前,病理AI的普及程度还相对落后。病理科工作流相对复杂,其落地涉及到扫描仪厂家、AI厂家、存储厂家等产业生态的联动,更需要生态合作伙伴的精诚合作。例如在瑞金医院,商汤主要负责AI研发,衡道病理负责部分信息化,华为主要提供存储硬件,通力合作打造了瑞金智慧病理样板。
当然了,从技术到商业,我们常常高估一年的变化,却低估十年的变化,所以大家可以给这个行业多一些耐心。