教育科技/机器人技术

爱丁堡大学ROOM框架:虚拟肺部手术训练机器人

阅读时长 29 min
作者:技术特派员


这项由爱丁堡大学的Salvatore Esposito领导的研究团队开发的突破性成果,发表于2025年9月的计算机科学机器人学领域。研究团队还包括来自英属哥伦比亚大学的Daniel Rebain等多位学者。有兴趣深入了解的读者可以通过论文链接https://github.com/iamsalvatore/room访问完整研究内容和开源代码。

想象一下,如果外科医生在给病人做手术之前,能在一个完全逼真的虚拟世界里反复练习成千上万次,会是什么样的情景?这正是爱丁堡大学研究团队开发的ROOM系统想要实现的愿景。不过,这里的"医生"不是人类,而是一种叫做连续体机器人的高科技设备,它们就像章鱼触手一样灵活,能够在人体复杂的支气管网络中自如穿行。

支气管镜检查听起来可能很陌生,但它其实是医生诊断肺部疾病的重要方法。传统的支气管镜就像一根细长的管子,医生需要小心翼翼地操控它在患者的气道中移动,寻找病变组织或进行活检。但人体的支气管系统就像一棵倒置的树,有无数分叉和弯曲,操作起来极其困难。而连续体机器人的出现就像给医生装上了"魔法触手",它们可以弯曲、扭转,到达以前无法触及的肺部深处。

然而,训练这些机器人医生面临着一个巨大的挑战:真实的医疗数据极其稀缺。毕竟,没有病人愿意成为机器人的"练习对象",医学伦理也不允许这样做。同时,每个人的肺部结构都不相同,就像每个人的指纹一样独特,这意味着机器人必须学会适应各种不同的解剖结构。

ROOM框架的诞生就是为了解决这个棘手问题。这个名字本身就很有趣——ROOM代表"医学中的现实光学观察",它本质上是一个超级精密的虚拟现实系统,专门为医疗机器人训练而设计。

ROOM系统的工作原理就像一个精密的电影制作流水线。首先,研究团队从患者的CT扫描图像开始,这些图像就像人体内部的"地图"。然后,他们使用先进的3D重建技术,将这些平面图像转换成完整的三维肺部模型,就像根据平面图纸建造出真实的建筑物一样。

接下来的步骤更加巧妙。系统会自动提取出肺部气道的"中央路径",这就像在复杂的地下洞穴系统中找出主要通道。这些路径成为机器人导航的"高速公路",确保它们能够安全地在肺部内部移动,而不会撞到气道壁。

整个模拟过程分为四个主要阶段,每个阶段都经过精心设计。第一阶段是从CT扫描中提取气道的骨架结构,就像描摹出一棵树的主干和分支。第二阶段是智能采样,系统会在气道分叉点和高弯曲区域增加采样密度,因为这些地方是导航最困难的区域,需要更多的训练数据。第三阶段是数据合成,系统生成同步的多模态传感器数据流,包括RGB图像、深度图、表面法线、光流场和点云。最后一个阶段是传感器噪声建模,通过频域分析真实支气管镜图像的噪声特征,然后将这些噪声特征应用到合成图像上,使虚拟数据看起来就像真实拍摄的一样。

ROOM系统的技术核心在于其对连续体机器人的精确建模。这种机器人不同于传统的刚性机器人,它们更像是一条智能的"电子蛇"。研究团队基于Cosserat杆理论来描述机器人的运动,这是一套复杂的数学方程,用于计算柔性物体在三维空间中的弯曲和扭转。机器人有三个自由度:肌腱驱动控制弯曲程度、轴向旋转决定弯曲平面、以及线性插入深度。

为了让模拟更加逼真,研究团队还加入了各种现实因素。他们建立了摩擦模型,模拟机器人与组织之间的相互作用。库仑摩擦系数被设定为静摩擦0.3和动摩擦0.25,这些数值来自真实的支气管镜-组织测量。他们还模拟了执行器噪声,包括机械顺应性和通信延迟造成的控制不完美,以及碰撞模型,确保模拟中的接触行为符合真实的物理规律。

在视觉渲染方面,ROOM系统达到了电影级别的逼真度。系统使用Blender的路径追踪技术和基于物理的材质着色器系统,准确再现了支气管内湿润粘膜表面的视觉特性。研究团队特别注意模拟支气管镜特有的定向照明效果,在机器人顶端安装了指数衰减的点光源,完美复制了真实医疗环境中的照明条件。

为了验证ROOM系统生成数据的有效性,研究团队进行了两项关键测试。第一项测试是多视角姿态估计,这对医疗机器人来说至关重要,因为它们需要准确知道自己在人体内的位置。研究团队比较了四种不同的方法:传统的ORB-SLAM和COLMAP方法,以及基于学习的DUSt3R和VGGT方法。结果显示,传统方法在支气管环境中表现不佳,相对旋转精度只有41%,相对平移精度仅为0.07%,这主要是因为支气管内部缺乏足够的纹理特征。相比之下,VGGT方法表现最佳,达到了79%的旋转精度和0.25%的平移精度。

第二项测试聚焦于单目深度估计,这对于支气管镜导航同样重要。由于支气管镜的尺寸限制(直径仅2.4-6.2毫米),很难安装立体相机系统,因此单目深度估计成为唯一选择。研究团队测试了七种不同的深度估计模型,包括通用模型Metric3D-V2、Depth Anything V2和UniDepth,以及专门针对内窥镜的模型EndoDAC、EndoOmni和BREA-Depth。

测试结果揭示了支气管环境的独特挑战。所有模型都表现出相对较高的绝对相对误差(0.44-0.49)和较低的δ1精度分数(26-28%),远低于在自然图像上80-90%的表现。错误主要集中在两个区域:湿润粘膜表面产生的镜面高光处,以及气道分叉等几何不连续区域。支气管的重复分支几何结构缺乏足够的纹理梯度,难以提供可靠的深度线索。

为了证明ROOM数据的实用价值,研究团队进行了模型微调实验。他们选择了三个模型进行微调:通用的UniDepth和DepthAnything V2,以及专门的BREA-Depth。为避免数据分布偏差,他们在一个独立的支气管镜数据集上进行测试。结果表明,使用ROOM数据进行微调确实能够改善性能。例如,BREA-Depth的δ1精度从65.39%提升到67.70%,相对增长3.5%。更重要的是,即使在完全不同的真实支气管镜图像上测试,微调后的模型仍然表现出明显改善。

研究团队还展示了ROOM数据在视觉导航任务中的应用潜力。他们实现了一个基于采样的路径规划器,使用预测的深度图生成局部点云地图进行碰撞检测。虽然还处于初步阶段,但结果显示传统规划器能够提供合理的导航路径,从当前相机位置到最远可见点规划出可行路径。

ROOM框架的创新不仅在于技术实现,更在于它解决了医疗机器人训练中的根本性难题。传统上,医疗机器人的开发受到真实数据稀缺的严重制约,因为患者安全和医学伦理的考虑使得大规模数据收集变得极其困难。ROOM系统通过生成无限多样的合成训练数据,彻底改变了这一现状。

系统生成的数据具有极高的多样性和复杂性。每个虚拟患者都有独特的解剖结构,反映了真实世界中人体解剖的巨大变异。同时,系统可以模拟各种病理情况和手术场景,为机器人提供全面的训练环境。这就像为飞行员提供了一个能够模拟各种天气条件、紧急情况和机型的飞行模拟器。

ROOM系统的输出数据组织得井井有条,方便研究人员使用。每个数据集都按患者解剖结构和序列进行分组,包含同步的多模态传感器数据:600×600像素的RGB图像、公制深度图、表面法线、光流场、点云、真实姿态以及标定参数和时间戳。这种标准化的数据格式使得不同研究团队能够轻松共享和比较结果。

从技术角度来看,ROOM框架具有出色的可扩展性。其模块化架构允许研究人员根据需要替换不同的组件。例如,可以更换物理模拟引擎、渲染引擎或机器人模型,甚至可以扩展到其他内窥镜手术类型,如结肠镜检查或关节镜检查。这种灵活性使得ROOM不仅仅是一个研究工具,更是一个可持续发展的平台。

当然,ROOM系统也存在一些局限性。首先,解剖重建流程依赖于CT扫描质量,对于存在严重遮挡或异常几何结构的病理案例可能会失效。其次,虽然系统基于PyBullet提供了物理精确的环境,但可能无法完全反映真实支气管的接触和变形动力学。此外,系统目前还不能模拟组织变形和生理动态,如呼吸运动等。

尽管存在这些限制,ROOM框架的意义远远超出了技术层面。它为医疗机器人研究开辟了新的可能性,使得研究人员可以在安全、可控的环境中进行大规模实验。这不仅加速了算法开发,也为最终的临床应用奠定了坚实基础。

展望未来,ROOM系统有望推动整个医疗机器人领域的发展。随着更多研究团队采用这一框架,我们可以期待看到更先进的导航算法、更精确的诊断工具,以及更安全的医疗机器人系统。最终,这些技术进步将直接惠及患者,使得肺部疾病的早期诊断和精准治疗成为现实。

ROOM框架的开源发布体现了研究团队对促进整个学术界发展的承诺。通过免费提供代码和数据,他们为全球研究人员创造了一个公平的竞争环境,使得即使是资源有限的研究机构也能参与到这一前沿领域的研究中来。这种开放的科学精神正是推动人类医疗技术进步的重要动力。

说到底,ROOM框架代表了医疗技术发展的一个重要里程碑。它不仅解决了当前医疗机器人训练中的数据瓶颈问题,更为未来智能医疗系统的发展指明了方向。当我们设想未来的医院里,机器人医生能够以毫米级精度在患者体内导航,精准地进行诊断和治疗时,ROOM这样的训练系统将是实现这一愿景的关键基础设施。对于普通患者而言,这意味着更安全、更精准、更少痛苦的医疗体验,以及更早期的疾病发现和更有效的治疗方案。

Q&A

Q1:ROOM框架是什么?它能做什么?

A:ROOM是爱丁堡大学开发的医疗机器人训练模拟器,专门为支气管镜机器人生成训练数据。它能从患者CT扫描创建逼真的虚拟肺部环境,让机器人在其中练习导航和操作,就像飞行员使用飞行模拟器训练一样。

Q2:为什么需要ROOM这样的模拟系统来训练医疗机器人?

A:真实医疗数据极其稀缺,因为患者安全和医学伦理限制了数据收集。同时每个人的肺部结构都不同,机器人需要大量多样化的训练数据才能适应各种解剖结构,而ROOM可以生成无限的虚拟训练场景。

Q3:ROOM生成的虚拟数据真的有用吗?

A:研究证明非常有用。实验显示用ROOM数据微调的深度估计模型性能明显改善,比如BREA-Depth模型的准确率从65.39%提升到67.70%。即使在真实医疗图像上测试,微调后的模型也表现更好。

🎮