Loading...
机构名称:
¥ 1.0

我的研究使用自然语言监督进行计算机视觉探讨。使用自然语言使我们能够超越固定标签本体,并扩展到更通用的互联网数据。朝向这个目标,我的论文探讨了四个问题 - (1)学习表征:我提出了一种使用图像字幕作为训练目标的语言监督视觉学习的第一个方法之一,显示了与Imagenet训练的方法相比,在下游任务(例如对象检测和段)上进行了效果。(2)缩放数据:我探索社交媒体作为高质量图像描述的丰富来源,并策划1200万图像文本对的数据集,同时确保负责任的策划实践。(3)理解数据:很难理解数百万图像文本对中存在的视觉概念的多样性。我认为,图像和文本自然地组织成类似树状的层次结构,并提出了一种学习表征的方法,该方法使用双曲线几何形状中的工具捕获该层次结构。(4)转移到下游任务:大型视觉语言模型在图像级任务(例如分类和检索)上显示出令人印象深刻的零射击传输功能。然而,它们对像素级任务(例如对象检测和分割)的转移性迄今依赖于昂贵的标记蒙版注释。i建议对象检测器有效地传输预训练的视觉模型,以分割和分类视觉对象而无需进行任何微调,这与现有的检测器不同,这些检测器使用使用数量的尺寸训练更标记的口罩以实现高性能。主席:贾斯汀·约翰逊教授总而言之,我的研究确认,使用语言监督可以推动计算机视觉进展的下一个飞跃,并且在实际应用中具有巨大的实用性。

Love Desai

Love DesaiPDF文件第1页