1。x li,j ding,m elhoseiny。vrsbench:一种多功能视觉语言基准数据集,用于遥感图像理解。神经信息处理系统(NERUIPS)的第三十八大会,2024年。pdf 2。m艾哈迈德,X li,M Elhoseiny。3DCOMPAT200:用于组成识别的语言扎根大规模3D视觉数据集。第三十八届神经信息处理系统会议(Neruips),2024年。3。x li†,Jian ding†,Z Chen,M Elhoseiny。uni3dl:3D和语言理解的统一模型。欧洲计算机视觉会议(ECCV)2024。PDF 4。J Chen,D Zhu,X Shen,X Li,Z Liu,P Zhang,R Krishnamoorthi,V Chandra,Y Xiong,M Elhoseiny。迷你v2:大型语言模型作为视觉多任务学习的统一接口。arxiv。PDF 5。D Zhu,J Chen,X Shen,X Li,M Elhoseiny。Monigpt-4:使用先进的大语言模型来增强视力语言理解。国际学习表征会议(ICLR)2024(> 24K在GitHub开始)。PDF 6。J Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。 视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。 PDF 7。 f khan†,X li†,一座寺庙,M elhoseiny。 渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。 国际计算机视觉会议(ICCV),2023年。 PDF 8。 pdfJ Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。PDF 7。f khan†,X li†,一座寺庙,M elhoseiny。渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。国际计算机视觉会议(ICCV),2023年。PDF 8。pdfX Shen,X Li,M Elhoseiny。MASTGAN:具有时间运动风格的视频,IEEE计算机视觉和模式识别会议(CVPR),2023年。
主要关键词