医疗具身智能发展到哪了？看这一篇综述就够了！

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文的主要作者Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen 分别自中南大学、香港科技大学（广州）、上海AI Lab、西湖大学、宾夕法尼亚大学等团队，在医学人工智能领域有深入研究。

医疗健康领域在提升效率、资源可及性等方面始终面临着诸多挑战。随着多模态大语言模型（MLLM）和世界模型（World model）等技术的不断发展，具身智能（Embodied AI）蓬勃发展，也驱动着医疗服务模式的深刻变革。医疗具身智能作为一个跨学科且快速发展的研究领域，涵盖了 AI 算法、机器人技术和生物医学等多个学科。为了更好地促进多学科之间的合作和发展，分析和总结医疗具身智能领域的最新进展和挑战尤为重要。

近日，由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线，中南大学刘艺灏为第一作者，通讯作者为香港科技大学（广州）助理教授陈晋泰。这篇综述论文全面梳理了具身智能在医疗领域的关键技术与应用前景。

论文标题：A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunitie
论文链接：https://arxiv.org/abs/2501.07468

Techniques：具身智能如何赋能现代医疗

具身智能（EmAI）通过多模态感知、行动控制、决策计划和记忆能力的深度结合，赋予了 AI 类似人类的感知与执行能力。通过 MLLMs、VLA models 等与机器人技术的融合，具身智能有着适应复杂医疗环境的潜力，下图展示了 “Embodied AI Brain” 的核心功能模块，体现感知、行动、决策与记忆的协同作用。

图 2：具身智能 “大脑” 核心功能

1、感知模块

具身感知作为 EmAI 系统的核心功能之一，通过多种感知方式帮助系统更好地理解和与环境互动。

Ⅰ) 感官感知是这一过程的基础，它通过获取来自不同感官传感器的输入，如视觉、触觉和声音等，帮助系统构建对外部世界的初步认知。

Ⅱ) 为了让系统获得更加全面的理解，跨模态感知通过整合来自不同模态的信息（比如视觉与语言的结合），提升感知的准确性和深度。这种跨模态的集成不仅让系统能够更精确地解读复杂的场景，还能帮助其在动态环境中做出更有效的决策。

Ⅲ) 交互感知（Interactive perception）进一步推动了 EmAI 系统感知能力的发展。它不仅仅依赖于静态的传感数据，还通过物理行为，如操作物体或改变视角等，来解决感知中的不确定性。这些行为的不断探索和反馈使得 EmAI 系统能够在实际操作中不断完善其感知模型，从而更好地应对复杂多变的任务。在执行物体操作或场景理解时，这种交互感知显得尤为重要。

2、行动模块

行动模块是具身智能的基础组成部分，涉及如何通过各种控制策略来指导系统的实时动作。这些控制策略包括动作的选择和执行，旨在根据感知信息进行实时调整，优化运动控制，完成精细操作任务。通过探索更优的策略表示和策略学习方法，具身智能实现了更高的精准性与适应性。

Ⅰ) 控制策略的表示通常有三种方式：显式策略、隐式策略和扩散策略。显式策略通过行为克隆等方法直接从观察中映射到动作，适用于比较简单的任务，但在复杂任务中可能表现不足。隐式策略则通过能量函数来表示动作选择的偏好，适合处理多模态任务，具有较强的表达能力。扩散策略则通过去噪扩散生成模型生成控制策略，能够提供更为多样的表示，尤其在离线强化学习和基于视觉的操作中展现出潜力。

Ⅱ) 在策略学习方面，强化学习（RL）和模仿学习（IL）是主要的学习方法。强化学习通过试错法优化控制策略，根据环境反馈调整行为，以最优化目标为导向，适用于需要长期适应的任务。然而，强化学习常面临采样效率低、探索成本高等问题。模仿学习则通过模仿专家示例行为来加速学习过程，不依赖显式的奖励函数，能较快学习到高效的控制策略，但容易受到 “协变量偏移” 的影响，导致其在新场景中的泛化能力受限。

表 1：行动控制策略总结

3、决策模块

与低级控制策略处理简单的实时动作不同，高级规划主要聚焦于如何将复杂任务分解为多个子任务，并通过逻辑推理和决策来完成这些任务。传统的规划方法，如 A * 算法和 Dijkstra 算法，虽然在结构化环境中非常有效，但在面对复杂的高维状态空间或部分可观测环境时，往往面临较大的挑战。因此，近年来，基于 LLM 的高级规划方法逐渐得到应用，它通过将抽象的指令转化为可执行的机器人任务，从而实现了认知推理与物理任务执行的结合。近年来，端到端具身大模型也逐渐被提出，这种方法将高级决策规划与低级动作生成整合到一个统一的系统中，能够更加高效地处理复杂的任务指令，避免了传统方法中不同模块之间的分离和局限。

表 2：规划方法总结

4、记忆模块

记忆模块主要负责存储和处理系统的经验和知识，以帮助其在复杂环境中进行自我适应和决策。记忆在 EmAI 系统中通常分为短期记忆和长期记忆两种形式，它们各自发挥着不同的作用。Ⅰ) 短期记忆主要用于处理和存储系统在当前任务或交互中所需要的即时数据，例如当前的感知信息或上下文内容。例如，在与用户的对话中，EmAI 系统会保持对话历史，以便实时调整其响应。Ⅱ) 长期记忆则主要用于存储更为持久和重要的知识，支持系统的长期学习和适应。通过集成长期记忆，EmAI 能够将过去的经验用于未来的决策和推理。存储长期记忆通常通过内部模型权重或外部数据库来实现。内部记忆的更新通常通过监督微调、指令微调等方法来实现，而外部记忆的更新则依赖于外部数据库或知识图谱的动态改进。

Applications：四大应用场景的实践与突破

论文探讨了具身智能在以下四大医疗健康领域的研究实践和应用：

临床干预：从术前诊断到术后康复，支持精准医疗的全流程覆盖。
护理陪伴：提升儿童、老年人及特殊人群生活质量，减轻护理负担。
设施运转：通过应急响应、药品分配等任务优化医疗资源。
研究开发：加速数据分析与实验自动化，为医学突破提供动力。

1. 临床干预

具身智能系统已广泛应用于临床干预的整个周期，包括干预前（Pre-Intervention）、干预中（In-Intervention）和干预后阶段（Post-Intervention）。

干预前：具身智能系统能够通过精确的诊断和评估，协助医疗团队制定个性化的治疗方案。如分诊系统能够根据患者的症状、历史病历以及其他健康数据，自动筛选出需要紧急干预的病例，帮助患者快速被转诊到合适的科室。智能影像分析系统能够通过对医学影像的自动化解读，辅助医生早期发现潜在疾病（如肿瘤、结石等），提高诊断的准确性和效率。此外，远程诊断和医疗咨询系统等使得患者能够在家中接受医疗建议，为医生提供了更多的时间进行专业决策。
干预中：在干预过程中，具身智能系统的应用可提高手术的精确性和安全性。例如，机器人辅助手术系统可以在手术过程中提供更高的精度和灵活性，尤其是在微创手术中，能够精确地定位和操作，有效降低了误差率。AI 辅助的手术规划系统则通过实时分析患者的病情和影像数据，有效监控患者的生命体征，提供个性化的手术方案，帮助医生制定更合适的操作计划。
干预后：在干预后的康复阶段，具身智能系统如智能康复机器人，能够通过个性化的康复训练，帮助患者恢复运动功能，特别是中风、脊髓损伤等患者，机器人可以根据患者的恢复情况动态调整训练内容和强度，确保康复训练的有效性和安全性。智能药物管理系统可以帮助患者按照医生的处方精准服药，同时监控患者的生理数据，如血糖、血压等，实时调整药物剂量或提供健康建议。此外，智能健康监测设备可以持续跟踪患者的健康状态，通过可穿戴设备实时收集数据，确保患者在恢复过程中不会出现意外情况。

图 3：具身智能在临床干预全流程中的应用

2. 护理陪伴

具身智能系统在日常护理与陪伴领域可以为患者提供全面的生活支持和情感陪伴等。以下是其在社会引导、日常辅助和行动支持方面的关键应用，图 4 展示了相关技术的具体场景。

社会引导：社交辅助机器人如 NAO 和 QTrobot，通过互动提升自闭症儿童的社交能力，例如学习模仿、轮流对话和同理心。同时，针对认知障碍患者（如痴呆症），ZORA 等机器人帮助优化交流并支持治疗和教育目标。
日常辅助：喂食机器人和康复指导设备通过感知和自适应技术辅助患者完成进食、穿衣等任务，并为患者提供康复锻炼的实时反馈与鼓励。
移动支持：外骨骼设备（如 ReWalk）为脊髓损伤患者提供步态训练，AI 轮椅则通过智能导航支持行动不便的用户独立完成移动。

图 4：社交辅助机器人

3. 设施运转

具身智能在医疗基础设施支持方面也有着丰富的应用场景，更好地保证医疗服务质量，通过应急响应、生命救援、药品配送和环境消毒等任务提高医疗效率和安全性。

应急响应：机器人在灾害场景中利用热成像和智能导航技术定位幸存者并提供医疗支持，显著缩短救援响应时间。
药品与物资配送：智能配送机器人在医院环境中承担药品、餐饮及医疗物资运输任务，特别是在疫情期间，通过无接触操作降低交叉感染风险。
环境消毒：消毒机器人结合紫外线和雾化技术，自动完成病房和公共区域的空气与表面消毒，维护高标准卫生环境。

图 5：生命救援机器人

4. 研究开发

具身智能通过自动化流程和智能化数据分析，在生物医学研究中推动了实验效率和创新开发速度的双重突破。

实验自动化：具身智能驱动的自动化实验平台通过精确处理试剂和执行实验任务，优化了化学合成与基因分析的操作流程，提高科学研究效率。
药物研发：AI 系统通过筛选化学分子库、预测生物结构和分析药物毒性等方法，缩短了药物开发周期并降低了成本。
知识检索：如 ChemCrow 等系统整合了科学知识与数据分析能力，能够辅助研究人员发现新药靶点和生物标记物。

图 6：实验机器人

Opportunities：具身智能分级与未来发展

论文提出了从 Level 1 到 Level 5 的五个具身智能级别，涵盖了感知、进化学习、任务泛化和人机交互四大维度。这些层级不仅描述了技术的进化路径，也勾勒出具身智能未来发展的潜力（图 7）。

目前，大多数框架工作处于 1 至 3 级，或仅专注于单一的子功能模块。例如，外科机器人执行预编程的动作（第 1 级），监测生命体征并提醒临床医生异常（第 2 级），整合多模态输入以执行精准任务，如缝合或注射（第 3 级）。然而，它们尚未达到第 4 级和第 5 级系统的自主性，这要求实时决策并能检测细微的解剖变化。类似地，陪伴机器人提供简单的听觉或触觉反应（第 1 级），识别手势并调整行为（第 2 级），评估身体和心理健康以提供个性化支持（第 3 级）。但它们仍未能理解复杂的情感状态或提供主动的个性化护理，无法达到第 4 级和第 5 级。尽管已经取得了显著进展，但仍需进一步发展，以克服当前的局限，使这些系统能够达到第 4 级和第 5 级，在这些级别下，它们能够进行独立推理、复杂决策和真正的自主操作。

图 7 具身智能分级标准

高质量的数据集是推动具身智能研究发展的基石，对于提升系统的性能和可靠性至关重要。如图 8 所示，这些数据集涵盖了临床干预、日常护理陪伴、生物医学研究等多个领域，为 EmAI 系统提供了丰富的训练材料。然而，目前的高质量数据集仍存在一定的局限性，特别是在样本多样性和多模态数据整合方面。现有数据集可能面临样本不足、区域和人群代表性不均等问题，这使得它们难以应对不同临床环境或个体差异带来的挑战。同时，多模态数据整合也亟需加强。目前，许多数据集依赖单一的感知输入（如视觉或语言），而忽略了触觉、声音等其他感知维度的整合，这限制了 EmAI 系统在复杂场景中的应用潜力。

图 8 医疗健康领域具身智能数据集分类

尽管具身智能在医疗领域展现了巨大潜力，但其发展仍面临着多重挑战，主要包括伦理和法律问题、技术准确性和可解释性问题，以及与现有医疗系统的互操作性问题。尤其是在责任划分、患者同意和数据透明度等方面，需要建立明确的法律框架和伦理监督机制，同时技术的准确性和系统的互通性也亟待解决。从个性化诊疗到实验室自动化，具身智能正在全面变革医疗服务，通过持续技术创新和跨学科协作，具身智能将为全球医疗系统带来深远影响，推动智慧医疗迈向新的高度。