1。x li,j ding,m elhoseiny。vrsbench:一种多功能视觉语言基准数据集,用于遥感图像理解。神经信息处理系统(NERUIPS)的第三十八大会,2024年。pdf 2。m艾哈迈德,X li,M Elhoseiny。3DCOMPAT200:用于组成识别的语言扎根大规模3D视觉数据集。第三十八届神经信息处理系统会议(Neruips),2024年。3。x li†,Jian ding†,Z Chen,M Elhoseiny。uni3dl:3D和语言理解的统一模型。欧洲计算机视觉会议(ECCV)2024。PDF 4。J Chen,D Zhu,X Shen,X Li,Z Liu,P Zhang,R Krishnamoorthi,V Chandra,Y Xiong,M Elhoseiny。迷你v2:大型语言模型作为视觉多任务学习的统一接口。arxiv。PDF 5。D Zhu,J Chen,X Shen,X Li,M Elhoseiny。Monigpt-4:使用先进的大语言模型来增强视力语言理解。国际学习表征会议(ICLR)2024(> 24K在GitHub开始)。PDF 6。J Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。 视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。 PDF 7。 f khan†,X li†,一座寺庙,M elhoseiny。 渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。 国际计算机视觉会议(ICCV),2023年。 PDF 8。 pdfJ Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。PDF 7。f khan†,X li†,一座寺庙,M elhoseiny。渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。国际计算机视觉会议(ICCV),2023年。PDF 8。pdfX Shen,X Li,M Elhoseiny。MASTGAN:具有时间运动风格的视频,IEEE计算机视觉和模式识别会议(CVPR),2023年。
Guest Editors Xiang Li, King Abdullah University of Science and Technology (xiangli92@ieee.org) Xiao Xiang Zhu, Technical University of Munich (xiaoxiang.zhu@tum.de) Gui-Song Xia, Wuhan University (guisong.xia@whu.edu.cn) Sherrie Wang, Massachusetts Institute of Technology (sherwang@mit.edu)武汉大学(balz@whu.edu.cn)蒂莫·巴尔兹(Timo Balz),阿卜杜拉国王科学技术大学(Mohamed.elhaseiny@kaust.edu.sa)Mohamed Elhoseiny,远程传感的视觉语言模型(VLMS)。vlms代表了计算机视觉和自然语言处理技术的开创性整合,旨在通过对视觉和文本信息的更细微的理解来增强与RS数据的解释和互动。通过弥合视觉识别和语义理解之间的差距,VLM提供了一个全面的框架,通过实现复杂的语义分析和自然语言描述功能,超越了传统的视觉任务。更重要的是,通过将视觉模型与LLM相结合,VLM可以利用验证的LLMS中的先验知识来解决复杂的推理任务。
