目的:对心血管疾病的治疗需要对导丝和导管进行复杂而挑战性的导航。这通常会导致长期干预措施,在此过程中,患者和临床医生暴露于X射线辐射。深度强化学习方法在学习此任务方面表现出了希望,并且可能是在机器人干预过程中自动导管导航的关键。然而,现有的培训方法显示出有限的能力,可以概括看不见的血管解剖结构,每次几何变化时都需要重新训练。方法:在本文中,我们为三维自主内血管内导航提出了零射击学习策略。使用一组非常小的分支模式训练集,我们的增强学习算法能够学习一个控制,然后可以将其应用于不看到的无需再培训的情况下。结果:我们在4种不同的血管系统上演示了我们的方法,在达到这些解剖学的随机靶标时,平均成功率为95%。我们的策略在计算上也有效,可以在2小时内对控制器进行训练。结论:我们的培训方法证明了其具有不同特征的不观察几何形状的能力,这要归功于几乎形状不变的观察空间。关键字 - 强化学习,控制,血管内导航,机器人技术