图像编码关键词检索结果

focallens:指令调整启用零射击条件图像表示

FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations

本文在ICLR 2025的野外基础模型的研讨会上接受了本文的理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如,考虑到一个人拿着一束鲜花的人的图像,我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是,大多数现有的图像编码范式代表图像作为固定的通用特征向量,可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在…

使用等级自动评估自我监督的语音模型

Towards Automatic Assessment of Self-Supervised Speech Models Using Rank

这项研究使用嵌入式等级探讨了通过自我监督学习(SSL)训练的通用语音编码器的无监督评估度量。传统上,评估这些编码器的性能是资源密集的,需要从下游任务中标记的数据。受视觉域的启发,嵌入等级显示了评估图像编码器的希望,而无需对标记的下游数据进行调整,因此考虑到信号的时间性质,研究了其在语音域中的适用性。这些发现表明等级与下游相关……