1。Jaeah Lee,Changwoon Choi,Young Min Kim和Jaesik Park,Livestroke:CVPR中的视频中抽象3D动作(2025)。2。gwangtak bae *,Changwoon Choi *,Hyeongjun Heo,Sang Min Kim和Young Min Kim,I2-Slam:ECCV中强大的影像现实主义密度大满贯的反倒成像过程(2024)。3。Changwoon Choi,Jaeah Lee,Jaesik Park和Young Min Kim,3Doodle:Siggraph(ACM TOG)(2024)中的3D笔触的物体的紧凑型抽象。4。sang赢得了Im*,Dongsu Zhang*,Jeong Hyun Han,Ryeong Myeong Kim,Changwoon Choi,Young Min Kim **和Ki Tae Nam **,研究了使用生成的细胞自动机研究金的性形态,在自然材料中(2024)。5。Changwoon Choi *,Juhyeon Kim *和Young Min Kim,IBL-NERF:Pacific Graphics(计算机图形论坛)(2023)中的神经辐射场的基于图像的照明公式。6。Sang Min Kim,Changwoon Choi,Hyeongjun Heo和Young Min Kim,在Pacific Graphics(计算机图形论坛)(2023年)中,适用于健壮的小说合成的色彩转换模块(2023年)。7。Junho Kim,Changwoon Choi,Hojun Jang和Young Min Kim,LDL:ICCV中的全景定位的线距离功能(2023)。8。Changwoon Choi,Sang Min Kim和Young Min Kim,CVPR(2023)的平衡球形网格,用于以中心的视图合成。9。Junho Kim,Hojun Jang,Changwoon Choi和Young Min Kim,CPO:将强大的Panorama更改为ECCV(2022)的Point Cloud Netization。10。11。12。( *同样贡献。)语言和技能Dongsu Zhang,Changwoon Choi,Inbum Park和Young Min Kim,ICLR的概率隐式现场完成(2022年,Spotlight)。 Junho Kim,Changwoon Choi,Hojun Jang和Young Min Kim,Piccolo:ICCV(2021)的Point Cloud-point以云为中心的OM-中性定位。 Dongsu Zhang,Changwoon Choi,Jeonghwan Kim和Young Min Kim在ICLR(2021)中学习具有生成性蜂窝自动机的3D形状。Dongsu Zhang,Changwoon Choi,Inbum Park和Young Min Kim,ICLR的概率隐式现场完成(2022年,Spotlight)。Junho Kim,Changwoon Choi,Hojun Jang和Young Min Kim,Piccolo:ICCV(2021)的Point Cloud-point以云为中心的OM-中性定位。Dongsu Zhang,Changwoon Choi,Jeonghwan Kim和Young Min Kim在ICLR(2021)中学习具有生成性蜂窝自动机的3D形状。Dongsu Zhang,Changwoon Choi,Jeonghwan Kim和Young Min Kim在ICLR(2021)中学习具有生成性蜂窝自动机的3D形状。
指导出版物1。“针对目标投掷的最终效力者的识别和学习控制” - Hasith Venkata Sai Pasala,Nagamanikandan Govindan和Samarth Brahmbhatt,IEEE Robotics and Automation and Automation Fetters,第1卷。9,不。11,pp。9558-9564,2024年11月2。“ Imagine2Servo: Intelligent Visual Servoing with Diffusion-Driven Goal Generation for Robotic Tasks ” - Pranjali Pathre, Gunjan Gupta, M. Nomaan Qureshi, Mandyam Brunda, Samarth Brahmbhatt , and K. Madhava Krishna, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2024 3.“ OpenBot-Fleet:与真实机器人进行集体学习的系统” - MatthiasMéuller,Samarth Brahmbhatt,Ankur Deka,Ankur Deka,Quentin Leboutet,David Hafner和Vladlen Koltun和Vladlen Koltun,国际机器人和自动化(ICRA)2024 4。“偷偷摸摸的人:偷偷摸摸的声学本地化” - 孟尤杨,帕特里克·格雷迪,萨玛斯·布拉姆布哈特,Arun Balajee Vasudevan,Charles C. Kemp,Charles C. Kemp和James Hays,Inter-National-National-National-National-National-National-National-inter-National-inter-National-national-inter-National-national-of Robotics and Automation and Automation(ICRA)20224 5。“基于触觉的对象插入政策的零射击” - 萨玛斯·布拉姆·伯特(Samarth Brahmbhatt),安卡尔·德卡(Ankur Deka),安德鲁·斯皮尔伯格(Andrew Spielberg)和马蒂亚斯·米勒(MatthiasMéuller),国际机器人和自动化会议(ICRA)2023 6。“压力之间:估算单个RGB图像的手压力” - 帕特里克·格雷迪,昌昌唐,萨玛斯·布拉姆·Bhatt,克里斯托弗·D·特里克,陈德·沃恩,詹姆斯·海斯,詹姆斯·海斯和查尔斯·肯普,欧洲计算机视觉会议(ECCV)2022(ORAL)7。“对软机器人抓手的视觉压力估计和控制” - 帕特里克·格雷迪,杰里米·A·柯林斯,萨玛斯·布拉姆·布拉特,克里斯托弗·D·特·特维格,昌昌唐,詹姆斯·海斯和查尔斯·C·坎普,IEEE/RSJ IEEE/RSJ国际智能机器人与系统(IROS)(IROS)2022 8。“联系人:优化联系以提高抓地力” - 帕特里克·格雷迪,郑昌,明·沃,克里斯托弗·D。“联系人:带有物体接触和手动姿势的grasps的数据集” - 萨马斯·布拉姆·汉特(Samarth Brahmbhatt),昌昌唐(Chengcheng Tang),克里斯托弗·D·特克格(Christopher D. Twigg),查尔斯·C·肯普(Charles C.“走向无标记的抓握捕获” -Samarth Brahmbhatt,Charles C. Kemp和James Hays,AR/VR计算机视觉的第三次研讨会,CVPR 2019 11.“ ContactGrasp:来自接触的功能性多手指掌握综合” - Samarth Brahmbhatt,Ankur Handa,James Hays和Dieter Fox,IEEE/RSJ国际智能机器人和系统国际会议(IROS)2019
[C27] Han Lin *,Jaemin Cho *,Abhay Zala和Mohit Bansal。“ CTRL-ADAPTER:一个有效且通用的框架,用于将各种控件适应任何扩散模型”。ICLR(口头)。 2025。 [project] [Paper] [代码]。 [C26] Zaid Khan,Elias Stengel-Eskin,Jaemin Cho和Mohit Bansal。 “ DataEnvgym:具有学生反馈的教师环境中的数据生成代理”。 ICLR(聚光灯)。 2025。 [project] [Paper] [排行榜] [代码]。 [C25] Jialu Li *,Jaemin Cho *,Yi-lin Sung,Jaehong Yoon和Mohit Bansal。 “ SELMA:学习和合并技能 - 特定文本对象专家与自动生成数据”。 神经。 2024。 [project] [Paper] [代码]。 [C24] Abhay Zala *,Jaemin Cho *,Han Lin,Jaehong Yoon和Mohit Bansal。 “ Envgen:通过LLM生成和适应环境以进行训练体现的代理人”。 Colm。 2024。 [project] [Paper] [代码]。 [C23] Abhay Zala,Han Lin,Jaemin Cho和Mohit Bansal。 “图表:通过LLM计划生成开放域的开放式平台图”。 Colm。 2024。 [project] [Paper] [代码]。 [C22] Han Lin,Abhay Zala,Jaemin Cho和Mohit Bansal。 “ VideodirectorGpt:通过LLM指导计划一致的多场景视频生成”。 Colm。 2024。 [project] [Paper] [代码]。 [C21] Heesoo Jang和Jaemin Cho。 “对大语言模型的偏见和危害的评估”。 2024。 [纸]。ICLR(口头)。2025。[project] [Paper] [代码]。[C26] Zaid Khan,Elias Stengel-Eskin,Jaemin Cho和Mohit Bansal。“ DataEnvgym:具有学生反馈的教师环境中的数据生成代理”。ICLR(聚光灯)。2025。[project] [Paper] [排行榜] [代码]。[C25] Jialu Li *,Jaemin Cho *,Yi-lin Sung,Jaehong Yoon和Mohit Bansal。“ SELMA:学习和合并技能 - 特定文本对象专家与自动生成数据”。神经。2024。[project] [Paper] [代码]。[C24] Abhay Zala *,Jaemin Cho *,Han Lin,Jaehong Yoon和Mohit Bansal。“ Envgen:通过LLM生成和适应环境以进行训练体现的代理人”。Colm。 2024。 [project] [Paper] [代码]。 [C23] Abhay Zala,Han Lin,Jaemin Cho和Mohit Bansal。 “图表:通过LLM计划生成开放域的开放式平台图”。 Colm。 2024。 [project] [Paper] [代码]。 [C22] Han Lin,Abhay Zala,Jaemin Cho和Mohit Bansal。 “ VideodirectorGpt:通过LLM指导计划一致的多场景视频生成”。 Colm。 2024。 [project] [Paper] [代码]。 [C21] Heesoo Jang和Jaemin Cho。 “对大语言模型的偏见和危害的评估”。 2024。 [纸]。Colm。2024。[project] [Paper] [代码]。[C23] Abhay Zala,Han Lin,Jaemin Cho和Mohit Bansal。“图表:通过LLM计划生成开放域的开放式平台图”。Colm。 2024。 [project] [Paper] [代码]。 [C22] Han Lin,Abhay Zala,Jaemin Cho和Mohit Bansal。 “ VideodirectorGpt:通过LLM指导计划一致的多场景视频生成”。 Colm。 2024。 [project] [Paper] [代码]。 [C21] Heesoo Jang和Jaemin Cho。 “对大语言模型的偏见和危害的评估”。 2024。 [纸]。Colm。2024。[project] [Paper] [代码]。[C22] Han Lin,Abhay Zala,Jaemin Cho和Mohit Bansal。“ VideodirectorGpt:通过LLM指导计划一致的多场景视频生成”。Colm。 2024。 [project] [Paper] [代码]。 [C21] Heesoo Jang和Jaemin Cho。 “对大语言模型的偏见和危害的评估”。 2024。 [纸]。Colm。2024。[project] [Paper] [代码]。[C21] Heesoo Jang和Jaemin Cho。“对大语言模型的偏见和危害的评估”。2024。[纸]。国际传播协会(ICA)(高级论文奖)。[C20] Yasumasa onoe,Sunayana Rane,Zachary Berger,Yonatan Bitton,Jaemin Cho,Roopal Garg,Alexander Ku,Zarana Parekh,Jordi Pontuset,Jordi Pont-Tuset,Garrett Tanzer,Su Wang和Jason Baldridge。“ docci:连接和对比图像的描述”。ECCV。 2024。 [Project] [Paper] [DataSet]。 [C19] David Wan,Jaemin Cho,Elias Stengel-Eskin和Mohit Bansal。 “对比区域指导:在没有训练的情况下改善视觉模型的接地”。 ECCV。 2024。 [project] [Paper] [代码]。 [C18] Qin Liu,Jaemin Cho,Mohit Bansal和Marc Niethammer。 “以低潜伏期,高质量和不同的提示来重新思考交互式图像分割”。 CVPR。 2024。 [project] [Paper] [代码]。 [C17] Jaemin Cho,Yushi Hu,Roopal Garg,Peter Anderson,Ranjay Krishna,Jason Baldridge,Mohit Bansal,Jordi Pont-Tuset和Su Wang。 “ Davidsonian场景图:在文本到图像生成的细粒度评估中提高可靠性”。 ICLR。 2024。 [project] [Paper] [代码]。 [C16] Jaemin Cho,Abhay Zala和Mohit Bansal。 “用于文本到图像生成和评估的视觉编程”。 神经。 2023。 [project] [Paper] [VPGEN代码] [VPEVAL代码]。 [C15] Shoubin Yu,Jaemin Cho,Prateek Yadav和Mohit Bansal。 “用于视频本地化和问题回答的自链图像模型”。 神经。 2023。ECCV。2024。[Project] [Paper] [DataSet]。[C19] David Wan,Jaemin Cho,Elias Stengel-Eskin和Mohit Bansal。“对比区域指导:在没有训练的情况下改善视觉模型的接地”。ECCV。 2024。 [project] [Paper] [代码]。 [C18] Qin Liu,Jaemin Cho,Mohit Bansal和Marc Niethammer。 “以低潜伏期,高质量和不同的提示来重新思考交互式图像分割”。 CVPR。 2024。 [project] [Paper] [代码]。 [C17] Jaemin Cho,Yushi Hu,Roopal Garg,Peter Anderson,Ranjay Krishna,Jason Baldridge,Mohit Bansal,Jordi Pont-Tuset和Su Wang。 “ Davidsonian场景图:在文本到图像生成的细粒度评估中提高可靠性”。 ICLR。 2024。 [project] [Paper] [代码]。 [C16] Jaemin Cho,Abhay Zala和Mohit Bansal。 “用于文本到图像生成和评估的视觉编程”。 神经。 2023。 [project] [Paper] [VPGEN代码] [VPEVAL代码]。 [C15] Shoubin Yu,Jaemin Cho,Prateek Yadav和Mohit Bansal。 “用于视频本地化和问题回答的自链图像模型”。 神经。 2023。ECCV。2024。[project] [Paper] [代码]。[C18] Qin Liu,Jaemin Cho,Mohit Bansal和Marc Niethammer。“以低潜伏期,高质量和不同的提示来重新思考交互式图像分割”。CVPR。2024。[project] [Paper] [代码]。[C17] Jaemin Cho,Yushi Hu,Roopal Garg,Peter Anderson,Ranjay Krishna,Jason Baldridge,Mohit Bansal,Jordi Pont-Tuset和Su Wang。“ Davidsonian场景图:在文本到图像生成的细粒度评估中提高可靠性”。ICLR。 2024。 [project] [Paper] [代码]。 [C16] Jaemin Cho,Abhay Zala和Mohit Bansal。 “用于文本到图像生成和评估的视觉编程”。 神经。 2023。 [project] [Paper] [VPGEN代码] [VPEVAL代码]。 [C15] Shoubin Yu,Jaemin Cho,Prateek Yadav和Mohit Bansal。 “用于视频本地化和问题回答的自链图像模型”。 神经。 2023。ICLR。2024。[project] [Paper] [代码]。[C16] Jaemin Cho,Abhay Zala和Mohit Bansal。“用于文本到图像生成和评估的视觉编程”。神经。2023。[project] [Paper] [VPGEN代码] [VPEVAL代码]。[C15] Shoubin Yu,Jaemin Cho,Prateek Yadav和Mohit Bansal。“用于视频本地化和问题回答的自链图像模型”。神经。2023。[Paper] [代码]。[C14] Zhenhailong Wang,Ansel Blume,Sha Li,Genglin Liu,Jaemin Cho,Zineng Tang,Mohit Bansal和Heng Ji。“ paxion:在视频语言基础模型中修补动作知识”。神经(聚光灯)。2023。[Paper] [代码]。
[C1] Agrawal T.,Balazia M.,Bremond f。:CM3T:高效多模式学习的框架,用于非病会议出版物基因交互数据集。IEEE/CVF冬季有关计算机视觉应用(WACV)的冬季会议,美国图森,2025年。[C2] Sinha S.,Balazia M.,Bremond f。:通过优化的聚合网络识别教法性白内障手术视频中的手术器械。IEEE图像处理应用和系统(IPA)的国际会议,法国里昂,2025年。[C3] Muller P.,Balazia M.,Baur T.,Dietz M.,Heimerl A.,Penzkofer A.,Schiller D.,Bremond F.,Alexandersson J.,Andre E.ACM多媒体(ACMMM),澳大利亚墨尔本,2024年。[C4] Strizhkova V.,Kachmar H.,Chaptoukaev H.,Kalandadze R.,Kukhilava N.,Tsmindashvili T.,Abo-Alzahab N.,Zuluaga M.A.:MVP:基于视频和生理信号的多模式情绪识别。在IEEE/CVF欧洲计算机愿景会议(ECCV),意大利米兰的IEEE/CVF欧洲/CVF上的情感行为分析(ABAW),2024年。[C5] Reka A.,Borza D.L.,Reilly D.,Balazia M.,Bremond F。:将门控和上下文引入时间动作检测。在IEEE/CVF欧洲计算机愿景会议(ECCV),意大利米兰的IEEE/CVF欧洲/CVF上的情感行为分析(ABAW),2024年。[C6] Tiwari U.,Majhi S.,Balazia M.,Bremond f。:自动驾驶异常检测至关重要的是:弱监督的地平线。ACM多媒体(ACMMM),第9640-9645页,加拿大渥太华,2023年。在IEEE/CVF欧洲计算机视觉会议(ECCV),意大利米兰,2024年,IEEE/CVF欧洲计算机视觉会议(ECCV)举行的自动驾驶(漫游)的强大,分发和多模式模型。[C7] Muller P.,Balazia M.,Baur T.,Dietz M.,Heimerl A.,Schiller D.,Guermal M.,Thomas D.,Bremond F.,Alexander-Sson J.,Andre E.,Andre E.[C8] Agrawal T.,Balazia M.,Muller P.,Bremond F。:多模式视觉变压器,强迫注意行为分析。IEEE/CVF计算机视觉应用(WACV)的冬季会议,第3392–3402页,美国威克罗阿,美国,2023年。[C9] Balazia M.,Muller P.,Tanczos A.L.,Liechtenstein A.,Bremond F。:社会互动的身体行为:新颖的注释和最新评估。ACM多媒体国际会议(ACMMM),第70-79页,里斯本,葡萄牙,2022年。[C10] Balazia M.,Hlavackova-Schindler K.,Sojka P.,Plant C。:Granger Causal-Ity的可解释步态识别。IEEE/IAPR国际模式认可会议(ICPR),第1069-1075页,加拿大蒙特利尔,2022年。[C11] Agrawal T.,Agarwal D.,Balazia M.,Sinha N.,Bremond f。:使用跨意识变压器和行为编码的多模式人格识别。IAPR国际视觉理论与应用会议(VISAPP),第501-508页,Virtual,2022。[C12] Sinha N.,Balazia M.,Bremond f。:火焰:面部地标热图激活的多模式凝视。IEEE国际高级视频和信号监视会议(AVSS),第1-8页,虚拟,2021年。[C13] Balazia M.,Happy S.L.,Bremond F.,Dantcheva A。:面部多么独特:一项调查研究。IEEE/IAPR国际模式识别会议(ICPR),第7066-7071页,意大利米兰,2021年。[C14] Balazia M.,Sarkar s。:在活动对象跟踪中重新调用评估。在神经信息处理系统会议上(NEURIPS),加拿大温哥华,2019年的神经信息处理系统(NEURIPS)的新知识(NEWINML)。[C15] Aakur S.,Sawyer D.,Balazia M.,Sarkar S。:对未修剪监视视频中基于建议的细粒度活动检测方法的检查。NIST关于TREC视频检索评估(TRECVID)的研讨会,《扩展视频挑战的活动》,美国盖瑟斯堡,2018年。[C16] Balazia M.,Sojka p。:您是走路的方式:不合作的MOCAP步态识别视频监视,并使用不完整和嘈杂的数据。IEEE/IAPR国际生物识别技术联合会议(IJCB),第208-215页,美国丹佛,2017年。 [C17] Balazia M.,Sojka p。:用于基于MOCAP的步态识别方法的评估框架和数据库。 IAPR关于模式识别可再现研究(RRPR)的研讨会,第33-47页,墨西哥坎昆,2016年。 [C18] Balazia M.,Sojka p。:通过最大保证金标准(扩展摘要)学习健壮的步态识别功能。 IAPR关于结构和句法模式识别(SSPR)和统计技术的国际国际研讨会(SPR),第585-586页,墨西哥梅里达,2016年。 [C19] Balazia M.,Sojka p。:与运动捕获数据相关的步态识别的独立特征。IEEE/IAPR国际生物识别技术联合会议(IJCB),第208-215页,美国丹佛,2017年。[C17] Balazia M.,Sojka p。:用于基于MOCAP的步态识别方法的评估框架和数据库。IAPR关于模式识别可再现研究(RRPR)的研讨会,第33-47页,墨西哥坎昆,2016年。[C18] Balazia M.,Sojka p。:通过最大保证金标准(扩展摘要)学习健壮的步态识别功能。IAPR关于结构和句法模式识别(SSPR)和统计技术的国际国际研讨会(SPR),第585-586页,墨西哥梅里达,2016年。[C19] Balazia M.,Sojka p。:与运动捕获数据相关的步态识别的独立特征。IAPR关于结构和句法模式识别(SSPR)和统计技术的国际国际研讨会(SPR),第310-321页,墨西哥,墨西哥,2016年。[C20] Balazia M.,Sojka p。:通过最大余量标准学习适合步态识别的功能。IEEE/IAPR国际模式识别会议(ICPR),第901-906页,墨西哥坎昆,2016年。[C21] Balazia M.,Sedmidubsky J.,Zezula P。:语义上一致的人类运动分割。国际数据库和专家系统应用程序(DEXA),第423-437页,德国慕尼黑,2014年。[C22] Sedmidubsky J.,Valcik J.,Balazia M.,Zezula p。:基于归一化步行周期的步态识别。国际视觉计算研讨会(ISVC),第11-20页,Rethymno,希腊,2012年。[C23] Valcik J.,Sedmidubsky J.,Balazia M.,Zezula P.,确定人类识别的行走周期。太平洋亚洲情报与安全信息学讲习班(PAISI),第127-135页,马来西亚吉隆坡,2012年。
1。x li,j ding,m elhoseiny。vrsbench:一种多功能视觉语言基准数据集,用于遥感图像理解。神经信息处理系统(NERUIPS)的第三十八大会,2024年。pdf 2。m艾哈迈德,X li,M Elhoseiny。3DCOMPAT200:用于组成识别的语言扎根大规模3D视觉数据集。第三十八届神经信息处理系统会议(Neruips),2024年。3。x li†,Jian ding†,Z Chen,M Elhoseiny。uni3dl:3D和语言理解的统一模型。欧洲计算机视觉会议(ECCV)2024。PDF 4。J Chen,D Zhu,X Shen,X Li,Z Liu,P Zhang,R Krishnamoorthi,V Chandra,Y Xiong,M Elhoseiny。迷你v2:大型语言模型作为视觉多任务学习的统一接口。arxiv。PDF 5。D Zhu,J Chen,X Shen,X Li,M Elhoseiny。Monigpt-4:使用先进的大语言模型来增强视力语言理解。国际学习表征会议(ICLR)2024(> 24K在GitHub开始)。PDF 6。J Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。 视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。 PDF 7。 f khan†,X li†,一座寺庙,M elhoseiny。 渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。 国际计算机视觉会议(ICCV),2023年。 PDF 8。 pdfJ Chen,D Zhu,K Haydarov,X Li,M Elhoseiny。视频chatcaptioner:迈向丰富的时空描述,arxiv 2023。PDF 7。f khan†,X li†,一座寺庙,M elhoseiny。渔网:用于鱼类补充,检测和功能性状预测的大规模数据集和基准。国际计算机视觉会议(ICCV),2023年。PDF 8。pdfX Shen,X Li,M Elhoseiny。MASTGAN:具有时间运动风格的视频,IEEE计算机视觉和模式识别会议(CVPR),2023年。
[1]。Zhongzhan Huang,Pan Zhou,Shuicheng Yan,Liang Lin。 通过缩放网络长跳连接进行扩散模型的更稳定训练。 神经信息处理系统(神经),2023 [2]。 上海Gao,Pan Zhou,Ming -Ming Cheng,Shuicheng Yan。 掩盖扩散变压器是强大的图像合成器。 国际计算机视觉会议(ICCV),2023 [3]。 li,Xiangyu Xu,Hehe Fan,Pan Zhou,Jun Liu,Jia -Wei Liu,Jiahe Li,Jussi Keppo,Mike Zheng Shoun,Shuichen Yan。 史密图:时空临时隐私的行动识别。 国际计算机视觉会议(ICCV),2023 [4]。 Alex Jinpeng Wang,Pan Zhou,Mike Zheng Shou,Shuicheng Yan。 位置引导的文本提示,以进行视力 - 语言预训练。 IEEE计算机视觉和模式识别会议(CVPR),2023 [5]。 pan Zhou,Xingyu Xie,Shuicheng Yan。 胜利:自适应梯度算法的重量 - 纳斯特诺夫加速度。 国际学习表征会议(ICLR),2023年(口头)[6]。 Jiachun Pan*,Pan Zhou*,Shuicheng Yan。 了解为什么掩盖重建预处理有助于下游任务。 国际学习表征会议(ICLR),2023年(*同等贡献)[7]。 Bowen Dong,Pan Zhou,Shuicheng Yan,Wangmeng Zuo。 lpt:长时间的提示调整以进行图像分类。 国际学习表现会议(ICLR),2023 [8]。 chenyang si*,weihao yu*,pan Zhou,Yichen Zhou,Xinchao Wang,Shuichen Yan。Zhongzhan Huang,Pan Zhou,Shuicheng Yan,Liang Lin。通过缩放网络长跳连接进行扩散模型的更稳定训练。神经信息处理系统(神经),2023 [2]。上海Gao,Pan Zhou,Ming -Ming Cheng,Shuicheng Yan。掩盖扩散变压器是强大的图像合成器。国际计算机视觉会议(ICCV),2023 [3]。li,Xiangyu Xu,Hehe Fan,Pan Zhou,Jun Liu,Jia -Wei Liu,Jiahe Li,Jussi Keppo,Mike Zheng Shoun,Shuichen Yan。史密图:时空临时隐私的行动识别。国际计算机视觉会议(ICCV),2023 [4]。Alex Jinpeng Wang,Pan Zhou,Mike Zheng Shou,Shuicheng Yan。 位置引导的文本提示,以进行视力 - 语言预训练。 IEEE计算机视觉和模式识别会议(CVPR),2023 [5]。 pan Zhou,Xingyu Xie,Shuicheng Yan。 胜利:自适应梯度算法的重量 - 纳斯特诺夫加速度。 国际学习表征会议(ICLR),2023年(口头)[6]。 Jiachun Pan*,Pan Zhou*,Shuicheng Yan。 了解为什么掩盖重建预处理有助于下游任务。 国际学习表征会议(ICLR),2023年(*同等贡献)[7]。 Bowen Dong,Pan Zhou,Shuicheng Yan,Wangmeng Zuo。 lpt:长时间的提示调整以进行图像分类。 国际学习表现会议(ICLR),2023 [8]。 chenyang si*,weihao yu*,pan Zhou,Yichen Zhou,Xinchao Wang,Shuichen Yan。Alex Jinpeng Wang,Pan Zhou,Mike Zheng Shou,Shuicheng Yan。位置引导的文本提示,以进行视力 - 语言预训练。IEEE计算机视觉和模式识别会议(CVPR),2023 [5]。pan Zhou,Xingyu Xie,Shuicheng Yan。胜利:自适应梯度算法的重量 - 纳斯特诺夫加速度。国际学习表征会议(ICLR),2023年(口头)[6]。Jiachun Pan*,Pan Zhou*,Shuicheng Yan。 了解为什么掩盖重建预处理有助于下游任务。 国际学习表征会议(ICLR),2023年(*同等贡献)[7]。 Bowen Dong,Pan Zhou,Shuicheng Yan,Wangmeng Zuo。 lpt:长时间的提示调整以进行图像分类。 国际学习表现会议(ICLR),2023 [8]。 chenyang si*,weihao yu*,pan Zhou,Yichen Zhou,Xinchao Wang,Shuichen Yan。Jiachun Pan*,Pan Zhou*,Shuicheng Yan。了解为什么掩盖重建预处理有助于下游任务。国际学习表征会议(ICLR),2023年(*同等贡献)[7]。Bowen Dong,Pan Zhou,Shuicheng Yan,Wangmeng Zuo。lpt:长时间的提示调整以进行图像分类。国际学习表现会议(ICLR),2023 [8]。chenyang si*,weihao yu*,pan Zhou,Yichen Zhou,Xinchao Wang,Shuichen Yan。启动变压器。神经信息处理系统(Neurips),2022(口服)(*均等贡献)[9]。Yuxuan Liang,Pan Zhou,Roger Zimmermann,Shuicheng Yan。双形式:局部全球分层变压器,以进行有效的视频识别。欧洲计算机视觉会议(ECCV),2022 [10]。Junbin Xiao,Pan Zhou,Tat -Seng Chua,Shuicheng Yan。 视频问题的视频图形变压器Junbin Xiao,Pan Zhou,Tat -Seng Chua,Shuicheng Yan。视频问题的视频图形变压器
1。Pigou,L。; Dieleman,s。; Kindermans,P.-J。 ; Schrauwen,B。 使用卷积神经网络的手语识别。 在计算机视觉中 - ECCV 2014研讨会; Agapito,L.,Bronstein,M.M.,Rother,C。,编辑。 ; Springer International Publishing:CHAN,2015年;卷。 8925,pp。 572–578 ISBN 9783319161778。 2。 Zaki,M.M。 ; Shaheen,S.I。 使用基于新视觉的功能组合的手语识别。 模式识别信2011,32,572–577,doi:10.1016/j.patrec.2010.11.013。 3。 Mukai,n。; Harada,n。; Chang,Y。基于分类树和机器学习的日本手指识别。 在2017年NICograph International(NICOINT)的会议记录中; IEEE:日本京都,2017年6月; pp。 19–24。 4。 bhat,a。; Yadav,V。;达根(Dargan) Yash手语使用深度学习进行文本转换。 在2022年第三届国际新兴技术会议论文集(INCET); IEEE:印度Belgaum,2022年5月27日; pp。 1-7。 5。 Gupta,Nikhil。 “字符语言转换。” Github,2023年10月29日,github.com/emnikhil/sign-language-to-text-conversion。 6。 jie huang; Wengang Zhou; Houqiang li;使用3D卷积神经网络来引导LI手语识别。 在2015年IEEE国际多媒体和博览会(ICME)会议录中; IEEE:意大利都灵,2015年6月; pp。 1-6。 7。 Liang,Z。; Liao,s。;胡,B。 8。 1-4。 9。Pigou,L。; Dieleman,s。; Kindermans,P.-J。; Schrauwen,B。使用卷积神经网络的手语识别。在计算机视觉中 - ECCV 2014研讨会; Agapito,L.,Bronstein,M.M.,Rother,C。,编辑。; Springer International Publishing:CHAN,2015年;卷。8925,pp。572–578 ISBN 9783319161778。2。Zaki,M.M。 ; Shaheen,S.I。 使用基于新视觉的功能组合的手语识别。 模式识别信2011,32,572–577,doi:10.1016/j.patrec.2010.11.013。 3。 Mukai,n。; Harada,n。; Chang,Y。基于分类树和机器学习的日本手指识别。 在2017年NICograph International(NICOINT)的会议记录中; IEEE:日本京都,2017年6月; pp。 19–24。 4。 bhat,a。; Yadav,V。;达根(Dargan) Yash手语使用深度学习进行文本转换。 在2022年第三届国际新兴技术会议论文集(INCET); IEEE:印度Belgaum,2022年5月27日; pp。 1-7。 5。 Gupta,Nikhil。 “字符语言转换。” Github,2023年10月29日,github.com/emnikhil/sign-language-to-text-conversion。 6。 jie huang; Wengang Zhou; Houqiang li;使用3D卷积神经网络来引导LI手语识别。 在2015年IEEE国际多媒体和博览会(ICME)会议录中; IEEE:意大利都灵,2015年6月; pp。 1-6。 7。 Liang,Z。; Liao,s。;胡,B。 8。 1-4。 9。Zaki,M.M。; Shaheen,S.I。使用基于新视觉的功能组合的手语识别。模式识别信2011,32,572–577,doi:10.1016/j.patrec.2010.11.013。3。Mukai,n。; Harada,n。; Chang,Y。基于分类树和机器学习的日本手指识别。 在2017年NICograph International(NICOINT)的会议记录中; IEEE:日本京都,2017年6月; pp。 19–24。 4。 bhat,a。; Yadav,V。;达根(Dargan) Yash手语使用深度学习进行文本转换。 在2022年第三届国际新兴技术会议论文集(INCET); IEEE:印度Belgaum,2022年5月27日; pp。 1-7。 5。 Gupta,Nikhil。 “字符语言转换。” Github,2023年10月29日,github.com/emnikhil/sign-language-to-text-conversion。 6。 jie huang; Wengang Zhou; Houqiang li;使用3D卷积神经网络来引导LI手语识别。 在2015年IEEE国际多媒体和博览会(ICME)会议录中; IEEE:意大利都灵,2015年6月; pp。 1-6。 7。 Liang,Z。; Liao,s。;胡,B。 8。 1-4。 9。Mukai,n。; Harada,n。; Chang,Y。基于分类树和机器学习的日本手指识别。在2017年NICograph International(NICOINT)的会议记录中; IEEE:日本京都,2017年6月; pp。19–24。4。bhat,a。; Yadav,V。;达根(Dargan) Yash手语使用深度学习进行文本转换。在2022年第三届国际新兴技术会议论文集(INCET); IEEE:印度Belgaum,2022年5月27日; pp。1-7。5。Gupta,Nikhil。 “字符语言转换。” Github,2023年10月29日,github.com/emnikhil/sign-language-to-text-conversion。 6。 jie huang; Wengang Zhou; Houqiang li;使用3D卷积神经网络来引导LI手语识别。 在2015年IEEE国际多媒体和博览会(ICME)会议录中; IEEE:意大利都灵,2015年6月; pp。 1-6。 7。 Liang,Z。; Liao,s。;胡,B。 8。 1-4。 9。Gupta,Nikhil。“字符语言转换。” Github,2023年10月29日,github.com/emnikhil/sign-language-to-text-conversion。6。jie huang; Wengang Zhou; Houqiang li;使用3D卷积神经网络来引导LI手语识别。在2015年IEEE国际多媒体和博览会(ICME)会议录中; IEEE:意大利都灵,2015年6月; pp。1-6。7。Liang,Z。; Liao,s。;胡,B。 8。 1-4。 9。Liang,Z。; Liao,s。;胡,B。8。1-4。9。3D卷积神经网络,用于动态手语识别。计算机期刊2018,61,1724–1736,doi:10.1093/comjnl/bxy049。Kanavos,A。; Papadimitriou,O。; mylonas,p。; Maragoudakis,M。使用深层卷积神经网络增强手语识别。 在第2023届第14届国际信息,情报,系统与应用程序(IISA)会议录中; IEEE:沃尔斯,希腊,2023年7月10日; pp。 张,p。; Wang,D。; Lu,H。多模式视觉跟踪:审查和实验比较。 comp。 Visual Media 2024,10,193–214,doi:10.1007/s41095-023-0345-5。Kanavos,A。; Papadimitriou,O。; mylonas,p。; Maragoudakis,M。使用深层卷积神经网络增强手语识别。在第2023届第14届国际信息,情报,系统与应用程序(IISA)会议录中; IEEE:沃尔斯,希腊,2023年7月10日; pp。张,p。; Wang,D。; Lu,H。多模式视觉跟踪:审查和实验比较。comp。Visual Media 2024,10,193–214,doi:10.1007/s41095-023-0345-5。
[1]本·艾斯纳(Ben Eisner),哈里·张(Harry Zhang)和大卫(David Hold)。flowbot3d:学习3D表达流动以操纵表达的观察。arxiv预印arxiv:2205.04382,2022。1 [2] Haoran Geng,Ziming Li,Yiran Geng,Jiayi Chen,Hao Dong和He Wang。partManip:从点云观察到学习跨类别的可推广零件操纵策略。在IEEE/CVF计算机视觉和模式识别会议论文集,第2978-2988、2023页。2 [3] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang和Wang。gapartnet:跨类别域,可通过可概括和可行的部分操纵对象感知和操纵。在IEEE/CVF计算机视觉和模式识别会议论文集,第7081–7091页,2023年。1,2 [4] Yiran Geng,Boshi AN,Haoran Geng,Yuanpei Chen,Yaodong Yang和Hao Dong。机器人操纵的端到端舞蹈学习。arxiv预印arxiv:2209.12941,2022。2 [5] James J Gibson。 提供的理论。 Hilldale,美国,1(2):67–82,1977。 2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。 铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。 ICRA,2024。 2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。 AKB-48:一个现实世界中阐明的对象知识库。 在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。2 [5] James J Gibson。提供的理论。Hilldale,美国,1(2):67–82,1977。 2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。 铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。 ICRA,2024。 2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。 AKB-48:一个现实世界中阐明的对象知识库。 在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。Hilldale,美国,1(2):67–82,1977。2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。ICRA,2024。2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。AKB-48:一个现实世界中阐明的对象知识库。在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。2 [8] Kaichun MO,Leonidas J. Guibas,Mustafa Mukadam,Abhi-Nav Gupta和Shubham Tulsiani。其中2act:从pix-els到铰接3D对象的动作。在IEEE/CVF国际计算机愿景会议论文集(ICCV),第6813-6823页,2021年。1,2 [9] Chuanrou Ning,Ruihai Wu,Haoran Lu,Kaichun Mo和Hao Dong。其中2个口气:对于看不见的新型铰接对象类别的负担能力学习。在神经信息处理系统(神经)中的广告中,2023年。2 [10] Yusuke Urakami,Alec Hodgkinson,Casey Carlin,Randall Leu,Luca Rigazio和Pieter Abbeel。门口:可扩展的门打开环境和基线代理。ARXIV预印arxiv:1908.01887,2019。1,2 [11]学习开门操作的语义关键点表示。IEEE机器人技术和自动化Letters,5(4):6980–6987,2020。1 [12] Yian Wang,Ruihai Wu,Kaichun MO,Jiaqi KE,Qingnan Fan,Leonidas Guibas和Hao Dong。adaafford:通过几乎没有相互作用,学习适应3D铰接式物体的操纵负担。欧洲计算机录像会议(ECCV 2022),2022。2 [13] Ruihai Wu,Yan Zhao,Kaichun MO,Zizheng Guo,Yian Wang,Tianhao Wu,Qingnan Fan,Xuelin Chen,Leonidas Guibas和Hao Dong。增值税:学习视觉动作
Sasikumar B和Naveen Kumar M计算机申请硕士系Raja Rajeswari工程学院,班加罗尔,印度卡纳塔克邦,印度卡纳塔克邦,Prof.sasikumar.b@gmail.com和Naveenmeti9353@gmail.com摘要:与图像相同的应用程序,并在现实中进行了自动驾驶,并在现实中进行了验证计算机视觉。在这个项目中,使用复杂的深度学习技术来完成Python中检测到的事情。它使用预训练的卷积(CNN)模型使用神经网络,在图片或视频供稿中使用Yolo(仅查看一次)或SSD(单拍的多伯克斯检测器)来定位和识别事物。使用Pytorch和Tensor Flow等流行的库,使用thepython编程语言开发,训练和实现此副本时。用于处理传入数据的预处理程序,使用带注释的数据集的模型培训以及对新鲜照片或视频帧的推断都包含在实施中。此外,该项目还研究了如何加速推理,以便实时应用可以使用它。对象识别系统进行评估需要计算重要的性能度量,例如F1得分,回忆和精度。结果表明,在各种情况下,模型能够定位和识别项目。这项工作增加了扩展的机器视觉,并提供了一份有用的手册,用于利用Python实现感情对象。实现的模块化和灵活的设计使对于不同的用例和数据集修改变得易于修改。关键字:Yolo I.II。 CVPR 2016已发布。II。CVPR 2016已发布。CVPR 2016已发布。该项目的结果证明了在实际用途中进行更多突破的可能性,鼓励在包括图像处理,自主系统和监视的领域创新。引言该项目的目标是利用流行的深度学习框架和Python来开发实时对象检测系统。在计算机视觉中,对象检测至关重要,因为它可以使计算机分析在图片或视频流中找到东西。主要文章是该模型的“发展”的准确和有效的对象,可以用于各种环境,例如智能环境,自动驾驶汽车和监视。查找和检测以识别图形或电视框架的事物是PC视图中对象感情的问题。在这项技术中有几种用途,包括安全性和监视,自动驾驶汽车和医疗成像。文学调查“您只看一次:统一,实时对象检测” Joseph Redman,Santosh Davila,Ross Airsick和Ali Faradic是作者。可以在此处找到指向纸的链接。摘要:在实时对象识别中Yolo(您只看一次)体系结构的效率被突出显示。“更快的R-CNN:它是带有区域建议网络的实时对象检测”[链接:更快的R-CNN论文] [作者:浅滩跑步,瞄准He,Ross Airsick,Jain Sun] [Jain Sun] [发布:NIPS:NIPS 2015] [摘要:摘要:较快的R-CNN方法均可使用该网络的准确性,该网络均可在ARTIME INDERS中介绍。ECCV 2016是出版年。“单镜头多食探测器”纸质概要:介绍SSD,一种用于完成“移动视觉应用程序卷积性感性网络:一种有效的方法“移动网”的技术检测技术。