摘要。通过多模式学习整合图像和文本数据已成为医学成像研究中的一种新方法,并在计算机视觉中成功地部署了。虽然已经致力于建立医疗基金会模型及其零射击到下游任务,但流行的几杆设置仍然相对尚未探索。从当前在计算机视觉中的这种设置的强劲出现之后,我们引入了第一个结构化基准,用于在严格的几杆状态下适应医学视觉模型(VLMS),并研究自然图像背景中常用的各种适应性策略。此外,我们评估了线性探针适应性基线的简单概括,该基础是通过可学习的类乘数来寻求视觉原型和文本嵌入的最佳混合。令人惊讶的是,这种文本知情的线性探针与基于复杂的及时学习和基于适配器的策略相比产生了竞争性能,同时运行速度要快得多并适应黑盒子设置。我们的扩展实验涵盖了三种不同的医学模式和专业的基础模型,九个下游任务以及几种最先进的少数适应方法。我们提供了我们的基准和代码公开,以触发此新兴主题的进一步发展:https://github.com/fereshteshakeri/few-shot-medvlms。
摘要 - 通过具有里程碑意义的行动来促进人类导航,从而利用了我们识别环境中显着特征的能力。因此,人类的导航说明可能非常简洁,例如简短的口头描述,表明记忆要求很小,并且不依赖复杂且过于准确的导航工具。相反,当前的自主导航方案依赖于准确的定位设备和算法以及从环境收集的大量感官数据。受到这种人类能力的启发,并由相关的技术差距激发,在这项工作中,我们提出了一种层次结构的端到端元学习方案,该方案使移动机器人在仅在以前未知的环境中导航,仅介绍了一组地标的几个示例图像以及相应的高级导航动作。这极大地简化了寻路过程,并可以轻松地采用新环境。对于几个射门检测,我们通过分配嵌入实现了基于度量的几杆学习技术。WayPoint检测触发多任务低级机动控制器模块,以执行相应的高级导航操作。我们使用小规模的自动驾驶汽车在几个以前看不见的环境中的新型室内导航任务上展示了该方案的有效性。