医学视觉语言模型的几次改编
机构名称:
¥ 1.0

摘要。通过多模式学习整合图像和文本数据已成为医学成像研究中的一种新方法,并在计算机视觉中成功地部署了。虽然已经致力于建立医疗基金会模型及其零射击到下游任务,但流行的几杆设置仍然相对尚未探索。从当前在计算机视觉中的这种设置的强劲出现之后,我们引入了第一个结构化基准,用于在严格的几杆状态下适应医学视觉模型(VLMS),并研究自然图像背景中常用的各种适应性策略。此外,我们评估了线性探针适应性基线的简单概括,该基础是通过可学习的类乘数来寻求视觉原型和文本嵌入的最佳混合。令人惊讶的是,这种文本知情的线性探针与基于复杂的及时学习和基于适配器的策略相比产生了竞争性能,同时运行速度要快得多并适应黑盒子设置。我们的扩展实验涵盖了三种不同的医学模式和专业的基础模型,九个下游任务以及几种最先进的少数适应方法。我们提供了我们的基准和代码公开,以触发此新兴主题的进一步发展:https://github.com/fereshteshakeri/few-shot-medvlms。

医学视觉语言模型的几次改编

医学视觉语言模型的几次改编PDF文件第1页

医学视觉语言模型的几次改编PDF文件第2页

医学视觉语言模型的几次改编PDF文件第3页

医学视觉语言模型的几次改编PDF文件第4页

医学视觉语言模型的几次改编PDF文件第5页

相关文件推荐

语言模型的猎犬
2024 年
¥5.0
大语言模型的基础
2025 年
¥23.0
视觉语言基础模型
2024 年
¥13.0
视觉语言动作模型
1900 年
¥12.0
视觉语言大脑编码
2022 年
¥1.0
视觉语言大脑编码
2025 年
¥1.0