EchoPrime：基于多视频视角的视觉语言模型，用于综合__

EchoPrime：基于多视频视角的视觉语言模型，用于综合

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

EchoPrime：基于多视频视角的视觉语言模型，用于综合

¥ 2.0

热度

我们的模型综合了超声心动图研究中的全部信息，包括不同视角的多个视频和长达 512 个标记的临床报告文本。这标志着比以前的医学基础模型（如 BioMedCLIP 和 EchoCLIP）有了显着改进，后者仅处理单个视角、单个图像并处理长达 77 个标记的文本。为了测试此设计的影响，我们执行了视频到文本和文本到视频的零样本跨模态检索（

添加pdf代下载 VIP点击下载文件