近期,上海交通大学与清华大学、上海体育大学等国内外联合团队系统性评估了大语言模型在糖尿病专业考试的表现,并验证了这些模型作为基层医生和保健护理人员糖尿病培训辅助工具的潜力。
研究人员选取了 10 种在英语和中文领域具有代表性的模型,包括 GPT-3.5、GPT-4.0、Google Bard、LlaMA-7B、LlaMA2-7B、百度 ERNIE Bot、阿里通义千问、MedGPT、Huatuo GPT 和 Chinese LlaMA2-7B。
他们选择了中国国家基层糖尿病防治管理指南认证考试(以下简称中文考试)和英国皇家内科医学院会员内分泌及糖尿病英语专科证书考试(以下简称英文考试)作为评估标准。
研究结果显示,在大多数情况下,大模型在提升基层医生和保健护理人员学习和技能方面表现良好。其中,GPT-4.0 在中英文糖尿病专业考试中表现最优异,显著提升了初级保健医生的考试成绩。
具体而言,在英文考试中,GPT-4.0 的准确率达到 62.5%,显著高于 Google Bard、LlaMA-7B 和 LlaMA2-7B 等模型。
根据相关统计数据显示,在传统培训模式下,基层医生和保健护理人员参加中文考试的通过率在 68.57% 至 81.16% 范围内。与之对比的是,在本次测试中,GPT-4.0 的中文考试准确率达 84.82%,显著高于传统培训模式的准确率。
此外,阿里通义千问、百度 ERNIE Bot、Google Bard、MedGPT 和 GPT-3.5 也通过了中文考试,而 LlaMA2-7B、HuatuoGPT、Chinese LlaMA2-7B 和 LlaMA-7B 则未能通过。
需要了解的是,由于这项研究始于 2023 年,未涵盖近期备受关注的国产大模型 DeepSeek。在论文发表后,该课题组迅速对其进行了补充测试。结果显示,DeepSeek 在中文考试的准确率达到 91.7%,略高于 GPT-4.0 的 84.82%。
糖尿病作为一种复杂的慢性疾病,不仅患者群体庞大,且分型多样,包括一型、二型及多种特殊类型和亚型,实现精准高效的诊疗难度极大,尤其是在中低收入国家,基础医疗条件和医生培训水平有待提升。
大模型在糖尿病诊疗领域的应用前景广阔,对于提升个性化诊疗水平具有重要意义。多模态大模型能够整合多种数据类型(如文本、图像、视频等),为医生提供更全面的决策支持。
这一研究不仅为大模型在医疗领域的应用提供了科学依据,也为未来糖尿病诊疗和医生培训的技术发展指明了方向。其研究结论与当前国际学界对医疗 AI“赋能而不替代”的共识相契合,为平衡技术创新与伦理风险提供了重要参考框架。
该论文共同通讯作者、上海交通大学盛斌教授表示,这项研究首次从全球视角为大模型在糖尿病诊疗以及基层医生培训等医疗场景应用效益提供了前瞻性证据,论证了大模型技术在糖尿病诊疗及基层医生培训等医疗场景的实践价值。与此同时,也指出了生成式 AI 在医疗场景的应用应避免技术滥用导致的医疗决策失误风险,并且要警惕过度依赖可能削弱医生临床判断能力的问题。
图丨盛斌(来源:盛斌)
近日,相关论文以《糖尿病培训的大语言模型:一项前瞻性研究》(Large language models for diabetes training: a prospective study)为题发表在Science Bulletin上 [1]。
上海体育大学博士生李灏萱、清华大学医学院博士生江泽铧、上海交通大学博士生管洲榆、上海交通大学医学院附属第六人民医院内分泌代谢科主任包玉倩教授是共同第一作者,上海交通大学的盛斌教授、贾伟平教授、新加坡国立大学覃宇宗助理教授、马来西亚马来亚大学 Lee-Ling Lim 教授、上海体育大学毛丽娟教授、上海交通大学蔡淳教授和李华婷教授担任共同通讯作者。
图丨相关论文(来源:Science Bulletin)
大模型用于培训医生技能可行吗?
盛斌教授早年博士毕业于香港中文大学计算机科学与工程系,主要研究方向是虚拟现实和人工智能领域,来到上海交通大学工作后,一直深耕医工交叉创新实践。
近年来,针对中国人口老龄化加速与生育率下降的双重挑战,他将研究重心转向探索人工智能及虚拟现实技术在青少年健康促进、中老年重大慢病管理及眼病诊疗中的科技创新,并积极推动数字疗法等新型医疗解决方案的实践。
他围绕糖尿病及糖尿病视网膜病变智能管理领域不断探索,成功研发出创新成果——DeepDR、DeepDR Plus 以及 DeepDR-LLM 智能系统。这三款系统堪称该领域的 “筛防治三部曲”,各自具备独特优势,为糖尿病及相关病变的智能管理提供了全面且高效的解决方案 [2-4]。
在大模型近年来迅速发展的背景下,2022 年,盛斌团队创新性地提出“大模型+小模型”协同推理架构,突破传统深度学习网络在诊疗一体化中的技术瓶颈,成功实现糖尿病及其视网膜病变的智能诊断与个性化管理建议的融合生成。
2024 年,他与合作者在Nature Medicine发布了首个面向糖尿病诊疗的视觉-大模型 DeepDR-LLM[4]。该系统首创融合适配器与低秩自适应技术,整合 50 万张眼底图像训练的 DeepDR-Transformer 模块与 37.2 万条基层诊疗数据的大模型模块,实现了从眼底病变检测、DR 分级诊断到个性化血糖/血压/血脂管理方案的端到端生成。
经覆盖亚非欧 7 国多中心验证,其诊断准确率达专业眼科医生水平,且能使基层医生诊疗建议质量提升 23%。世界卫生组织荣誉总干事陈冯富珍对该成果评价称:“不仅为基层糖尿病管理工作带来了实质性的帮助,还为人工智能技术赋能慢病诊疗提供了宝贵的经验和示范效应。”
这一成果发布后不久,Nature Medicine刊发了美国哈佛大学医学院学者针对该成果的专门述评。作者指出,将 DeepDR-LLM 系统融入基层医疗服务,将有助于提升基层医生的诊疗水平与患者的就诊体验;但同时也提到,中国基层医疗存在医生能力参差不齐、培训不足等状况,这在一定程度上制约了相关 AI 技术对基层医疗的促进作用。
这篇述评提到的观点引发了盛斌深度思索,也让他把目光关注到如何利用大模型赋能基层医生培训和教育,提升基层医生能力水平的问题上来。为此,盛斌和糖尿病领域的多位国内外专家跨学科讨论,然而,这些来自不同国家的专家的观点存在显著差异。
盛斌注意到,尽管糖尿病是全球性公共卫生挑战,但各国医疗体系差异显著:高收入国家因医疗资源集中且医生教育水平较高,部分专家担忧大模型可能削弱医生临床决策能力;而中国、印度等新兴市场国家基层医生技能参差、患者群体庞大且老龄化严重,亟需通过技术创新提升服务能力。
这种认知差异促使他联合清华大学黄天荫教授、上海交通大学贾伟平教授团队等国内外专家,发起全球首个糖尿病培训大模型验证研究,从科学方面验证大模型是否真的能够帮助基层医生提升其考试成绩和技能水平。
有效辅助医生提升糖尿病专业技能
在该研究中,GPT-4.0 在诊断准确性方面超越了初级保健医生,甚至在某些内科疾病的诊断中,其准确性高于急诊科住院医生。例如,在心血管疾病、内分泌疾病和胃肠道疾病等领域的诊断测试中,GPT-4.0 的诊断准确率显著优于传统医护人员。
盛斌解释说道:“这种优势主要源于其强大的知识储备和推理能力,尤其是在处理规则性知识和经验型任务时,GPT-4.0 能够快速准确地生成有效的医疗信息。”
此外,GPT-4.0 的多模态功能使其能够处理图像和文本输入,进一步拓展了其在医学影像分析等领域的应用。这种能力不仅提高了医疗诊断的效率,还为基层医生减轻了手工和低层次脑力劳动的负担。
(来源:Science Bulletin)
尽管 GPT-4.0 在国际医学领域表现出色,但不可忽视的是,国内的大模型也在某些方面展现出独特的优势。这些模型不仅在知识储备和推理能力上与 GPT-4.0 相当,还在语言表达习惯和本土指南解读方面更具优势。其不仅融入了国内的诊疗习惯和用药指南,还在中医领域提供了更具针对性的建议。
然而,必须看到的是,国内外大模型都存在一定的局限性。例如,GPT-4.0 在处理糖尿病等疾病时,可能会因不同国家指南的差异而出现信息混乱的现象。由于其数据来源广泛,也可能会推荐一些在中国不常用的药物或诊疗方案。相比之下,国内模型由于更好地结合了本土医疗数据和指南,幻觉现象(即生成错误或误导性信息)相对较少。
值得关注的是,研究还评估了 GPT-4.0 对初级保健医生培训的实际帮助。7 名初级保健医生在未使用 GPT-4.0 辅助情况下的平均准确率为 74.72%,而在使用 GPT-4.0 辅助后,平均准确率提升至 75.81%,大多数医生的准确率都有所提高,部分医生的提升幅度达到了 6.13%。这表明,GPT-4.0 不仅能提供准确的医学知识,还能有效辅助初级保健医生提升糖尿病护理能力。
(来源:Science Bulletin)
有望成为医疗护理培训的新途径
尽管大模型在辅助医生培训糖尿病专业知识和职业技能提升方面表现出巨大潜力,然而大模型在医疗领域的一些关键问题也不容忽视。
例如,大模型在不同国家的应用场景存在显著差异。具体来说,在医疗资源丰富、医疗水平较高的国家,大模型可以作为辅助工具,帮助医生解决复杂的罕见病例。而在中低收入国家,大模型的应重点应用在基层医疗,从而让医生通过大模型培训,能够更好地掌握糖尿病等慢性病的诊疗标准和常见治疗方法。
盛斌表示:“这种差异化表现说明,技术应用需与医疗场景深度适配,尤其在资源匮乏地区,大模型可通过知识赋能弥合专业鸿沟。”
此外,医疗大模型可能因数据污染产生错误或不相关信息(即“幻觉现象”),这种由训练数据质量缺陷引发的系统性风险已被多项研究证实,且错误信息会通过知识关联形成扩散效应。
“以最新发布的 GPT-o3 和 DeepSeek-R1 为例,尽管在糖尿病等重大慢病诊疗场景中展现出应用潜力,但实测显示其诊断建议仍存在显著偏差,这种技术局限性可能引发严重的医疗安全风险,也可能因医生偏面追求医疗记录的全面性掩盖关键诊疗信息,形成‘数据污染’,干扰临床决策。”盛斌教授补充道。
随着 AI 技术的飞速发展,医生掌握 AI 技能已经成为新时代的医疗需求。而大模型在医学领域的应用就像一把“双刃剑”:既可以作为一种高效的专业能力培训工具,有效减轻医生的重复性工作负担和提升其诊疗技能水平;也需要防止医生对其过度依赖而导致技能水平下降。
那么,大模型是否会取代医生,尤其是基层初级医生?该团队认为,大模型在医学领域具有巨大的拓展空间。他们的目标是将大模型打造成医生的助手或伴侣,而非竞争者,通过“双向赋能”提升医疗效率和质量。
研究人员还关注大模型在医学教育中的应用潜力。例如,通过虚拟教师或数字孪生 AI 教师进行个性化培训和教学,以及医学院学生对新型教学方式的接受度和技能提升情况等。
此外,他们也在研究生成式 AI 技术在糖尿病并发症领域的应用。例如,利用眼底图像,通过深度学习技术探索更多系统性疾病或整体健康状态变化的可能性。
随着技术的不断进步和应用场景的拓展,大模型有望在慢病和基层医疗中发挥更大的作用,为全球公共卫生挑战提供创新的解决方案。
参考资料:
1.H. Li, Z. Jiang, Z. Guan, Y. Bao, Y. Liu, T. Hu, J. Li, R. Liu, L. Wu, D. Cheng, H. Ji, Y. Wang, Y-X. Wang, C.Y. Cheung, Y. Zheng, J. Wang, Z. Li, W. Wu, C.C. Lim, Y.M. Bee, H.C. Tan, E.I. Ekinci, D.C. Klonoff, J.B. Echouffo-Tcheugui, N. Mathioudakis, L. Corsino, R. Simó, C. Sabanayagam, G.S. Wei Tan, C-Y. Cheng, T.Y. Wong, H. Li, C. Cai, L. Mao, L-L. Lim, Y-C. Tham, B. Sheng, W. Jia, Large language models for diabetes training: a prospective study,Science Bulletin(2025).https://doi.org/10.1016/ j.scib.2025.01.034
2.Dai, L., Wu, L., Li, H. et al. A deep learning system for detecting diabetic retinopathy across the disease spectrum.Nature Communications12, 3242 (2021). https://doi.org/10.1038/s41467-021-23458-5
3.Dai, L., Sheng, B., Chen, T. et al. A deep learning system for predicting time to progression of diabetic retinopathy.Nature Medicine30, 584–594 (2024). https://doi.org/10.1038/s41591-023-02702-z
4.Li, J., Guan, Z., Wang, J. et al. Integrated image-based deep learning and language models for primary diabetes care.Nature Medicine30, 2886–2896 (2024). https://doi.org/10.1038/s41591-024-03139-8
运营/排版:何晨龙