[52]。对文本理由的需求仍然至关重要,尤其是在技术采用取决于这一因素的安全领域[29]。考虑端到端自动驾驶的域[11],其中通常通过深层神经网络处理摄像头输入执行驾驶策略以发电控制命令。在VLM中的最新步伐具有固体变压器作为多模式学习者,在视觉问题(VQA)(VQA)(VQA)等任务中表现出了出色的表现,并强调了它们在复杂任务的强大表示方面的熟练程度[14]。倾斜视觉语言模型(VLM)进入自主驾驶领域,有望增强对这些系统的用户信任。我们的重点是仅视觉的端到端自动驾驶,旨在弥合数据驱动的决策和用户信任之间的差距。我们介绍了lingoqa,这是一种专为自动驾驶视频QA而设计的台式标记,它利用了一个包含419k QA对的新型数据集。通过其自由形式的问题和诉讼方法来区分,该数据集扩大了自动驱动视频质量质量质量检查的范围,涵盖了推理和行动的合理性。此外,我们发布了一个全面的评估套件,该评估套件由1,000个示例组成。在我们的基准标准的核心上是一个基于一个学识渊博的文本分类器Lingo-Gudge的新颖评估指标,其灵感来自真实的GPT法官[34]。评估代码和分类的权重将与纸张一起释放,以支持强大的板凳标记自动驾驶中的视频问题。We perform rigorous stud- ies correlating automatic metrics to human preferences and find that Lingo-Judge achieves a 0.950 Spearman and 0.993 Pearson correlation coefficient, surpassing existing auto- mated labelling techniques like METEOR [ 5 ], BLEU [ 40 ], CIDEr [ 49 ], and GPT-4 [ 39 ] on our benchmark, while being fast enough for frequent runs during培训和发展。配备了此评估工具包,我们就关键组件及其在VLM中进行自动驾驶的融合进行了全面的经验研究。我们在第5节中的发现表明,最有效的方法涉及对配备Vicuna-1.5-7B的视觉语言模型的注意力层[13],均在动作和风景数据集上。此过程涉及在4秒内使用5个视频帧和一种晚期视频效果技术。我们的集体工作,跨越了LingoQA基准,视觉指导调查数据集和创新的评估指标,旨在推动语言提名的自主驾驶领域,为后续的研究和开发范围奠定了强大的基础。总结本文的主要贡献:
为了应对及时的工程挑战,诸如Coop之类的方法通过直接从数据中学习最佳提示来自动化该过程。这减少了对手动调整的依赖,并可以提高模型对不同任务的适应性。在开放式识别挑战中,最近的研究表明,VLMS通过其有限查询集施加了封闭式假设。他们建议,简单地将查询设置扩展到包括更多类别并不能解决问题 - 实际上,由于错误分类和计算开销的增加,它可能会恶化性能(Miller等,2023)。为了减轻这些问题,已经提出了诸如纳入预测不确定性度量和专用的负嵌入等方法。这些方法旨在帮助模型识别输入何时不属于任何已知类别并适当处理此类案例
背景路易体痴呆 (DLB) 和阿尔茨海默病 (AD) 是老年人中两种常见的神经退行性疾病。这两种疾病都与大脑中蛋白质的异常沉积有关,它们的诊断具有挑战性,尤其是在区分它们方面,因为它们在早期阶段表现出相似的症状。脑部 MRI 提供了脑结构的详细图像,可以识别与神经退行性疾病相关的结构变化。深度学习在分析这些图像方面显示出巨大的潜力,可以实现准确的预测和解释。它的核心是最近出现的大规模预训练视觉语言模型 (VLM),由于其可泛化的视觉和文本表示,它们已经表现出非凡的性能。
摘要 - 简单的提示学习方法可有效地适应视觉语言模型(VLMS)到下游任务。然而,经验证据表明,现有方法的趋势是他们过度拟合的班级,并且在看不见的阶级上表现出降解的表现。此限制是由于训练数据中对所见类的固有偏见。为了解决这个问题,我们提出了一种新颖的软提示学习方法,称为蒸馏混合物(MOPD),该方法可以从硬手工制作的硬提示中有效地传递有用的知识(又称A.K.A.老师提示)到可学习的软提示(又称学生提示),从而增强了在看不见的课程上软提示的概括能力。此外,提出的MOPD方法采用了一个门控网络,该网络学会选择用于迅速蒸馏的硬提示。广泛的实验表明,所提出的MOPD方法的表现优于现状的基准,尤其是在看不见的类别上。
tencent Robotics X,中国深圳05/2024 - 10/2024 Intelligent Agent Group研究实习生开发了一种使用具有低级控制政策的VLM桥接高级计划的方法。VLM指导的轨迹条件扩散政策已提交给ICRA2025。Avanade&UCL,英国伦敦10/2020 - 05/2021软件工程师开发并带领三人组成的团队创建了一个AI-Driention移动应用程序,旨在促进回收实践。该应用程序标识可回收项目,并通过奖励系统激励回收利用。Citrix Systems,中国北京07/2020 - 09/2020软件工程师Camp Camp carpus Star&Silver Prive开发了一种用于监视和管理虚拟机弹出窗口的应用程序,从而提高了虚拟化平台的安全性和操作效率。
分布式约束优化问题(DCOPS)为多代理协调提供了一个强大的框架,但通常依靠劳动力密集的,手动的问题构建。为了打扮,我们介绍了VL-DCOPS,该框架利用大型多模式基础模型(LFMS)自动从视觉和语言指令中生成构造。然后,我们引入了用于求解VL-DCOPS的代理原型:从将某些算法决定委托给LFM的神经符号剂中,向完全神经剂授予完全在LFM上的完全神经药物。我们使用最先进的LLM(大型语言模型)和VLM(VI-SION语言模型)在三个新颖的VL-DCOP任务上评估了这些代理原型,并比较了它们各自的优势和缺点。最后,我们讨论了这项工作如何在DCOP文献中面临更广泛的边界挑战。
摘要 - 基于学习的方法已经实现了四足动力的强大性能。然而,一些挑战阻止了四足动物学习需要与环境和人类互动的有用室内技能:缺乏操纵的最终效果,仅使用模拟数据使用有限的语义介绍,以及在室内环境中的较低的遍历性和可及性。我们提出了一个在室内环境中进行四足动物移动操作的系统。它使用前式握把进行对象操纵,这是一种低级控制器,在模拟中培训了以egile的深度进行训练,以攀登和全身倾斜等敏捷技能,以及预先训练的视觉语言模型(VLMS),并具有第三人称Fisheye和Egentric RGB摄像头,以探索fishereye和Egincentric RGB摄像头,以进行儿子理解和指挥生成。我们在两个看不见的环境中评估了我们的系统,而没有任何现实数据收集或培训。我们的系统可以零射对这些环境并完成任务,例如遵循用户的命令在攀登女王大小的床上,成功率为60%。
奖励工程长期以来一直是加强学习(RL)研究的挑战,因为它通常需要大量的人类努力和试验和错误的局限性来设计有效的奖励功能。在本文中,我们提出了rl-vlm-f,这种方法通过利用视觉语言基础模型(VLMS)来利用馈送供给,从而自动为代理人学习新任务的奖励功能,并仅对任务目标的文本描述和代理人的视觉观察来生成新任务。我们方法的关键是要查询这些模型,以根据任务目标的文本描述对代理的图像观察对偏好,然后从偏好标签中学习重新函数,而不是直接提示这些模型输出原始奖励分数,这可能是嘈杂和一致的。我们证明,RL-VLM-F成功地产生了各个领域的有效奖励和政策,包括经典控制,以及操纵刚性,清晰和可变形物体的操纵,而无需人工监督,不需要人类的先验方法,这些方法均超过了在同一假设下使用奖励生成的大型奖励模型。
摘要。通过多模式学习整合图像和文本数据已成为医学成像研究中的一种新方法,并在计算机视觉中成功地部署了。虽然已经致力于建立医疗基金会模型及其零射击到下游任务,但流行的几杆设置仍然相对尚未探索。从当前在计算机视觉中的这种设置的强劲出现之后,我们引入了第一个结构化基准,用于在严格的几杆状态下适应医学视觉模型(VLMS),并研究自然图像背景中常用的各种适应性策略。此外,我们评估了线性探针适应性基线的简单概括,该基础是通过可学习的类乘数来寻求视觉原型和文本嵌入的最佳混合。令人惊讶的是,这种文本知情的线性探针与基于复杂的及时学习和基于适配器的策略相比产生了竞争性能,同时运行速度要快得多并适应黑盒子设置。我们的扩展实验涵盖了三种不同的医学模式和专业的基础模型,九个下游任务以及几种最先进的少数适应方法。我们提供了我们的基准和代码公开,以触发此新兴主题的进一步发展:https://github.com/fereshteshakeri/few-shot-medvlms。
摘要:使用人工智能(AI)进行高级图像分析的集成是自动驾驶汽车(AVS)进化的关键。本文对AVS图像分析中使用的最重要的数据集和最新的AI解决方案进行了详尽的审查。数据集,例如CityScapes,Nuscenes,Carla和Talk2CAR,构成了培训和评估不同AI模型的基准,具有符合自动驾驶各个方面的独特特征。关键AI方法,包括卷积神经网络(CNN),变压器模型,生成对抗网络(GAN)和视觉语言模型(VLMS)。本文还对现实世界中各种AI技术进行了比较分析,重点是语义图像细分,3D对象检测,虚拟环境中的车辆控制以及使用自然语言的车辆交互。同时突出了多个数据集和仿真平台(如Airsim,Torcs和Summit)在丰富AV的训练数据和测试环境中的作用。通过综合数据集,AI解决方案和比较性能评估的信息,本文为研究人员,开发人员和行业利益相关者提供了至关重要的资源,可清楚地了解自动驾驶汽车图像分析技术的当前景观和未来方向。