摘要 - 人类在循环(HITL)框架上是许多现实世界中的计算机视觉系统的特征,使人类操作员能够在AI帮助的情况下做出明智的决定。共形预测(CP)为标签集提供了严格的基于地面真相包容概率的保证,最近已成为HITL设置中有价值的工具。一个关键的应用领域是视频监视,与人类行动识别(HAR)紧密相关。这项研究探讨了CP在使用广泛预先训练的视觉模型(VLMS)的最先进的方法上的应用。我们的发现表明,CP可以显着减少候选类别的平均数量,而无需修改基础VLM。但是,这些减少通常会导致长尾巴的分布。为了解决这个问题,我们引入了一种基于调整VLM的温度参数以最小化这些尾巴的方法而无需其他校准数据的方法。我们的代码可在github上通过地址https://github.com/tbary/cp4vlm提供。索引项 - 符合预测,温度调整,视觉语言模型,人类行动识别。
摘要:视觉语言动作(VLA)模型的最新进展可以使机器人根据语言或基于目标的说明执行广泛的任务。这些VLA模型通常将文本和图像编码为脱节令牌,从而生成与给定指令保持一致的动作。这要求VLA模型同时执行视觉语言理解和精确的闭环控制,从而给他们带来重大挑战,以使其概括为新环境。然而,对比的预训练的VLM,例如剪辑,已经具有视觉对齐能力,这些功能被当前的VLA模型未被充分利用。在本文中,我们提出了早期的Fusion VLA(EF-VLA),这是一种新颖的VLA架构,通过执行早期融合来利用Clip的视觉理解,在传递到变压器政策之前,提取与任务指导相关的细粒度视力语言令牌。ef-vla保持VLM冷冻,允许其有效执行看不见的任务而无需进行精细调整,这通常会降低概括能力。仿真和现实世界实验表明,EF-VLA在不同任务上的最先进的VLA模型优于最先进的VLA模型,并且在看不见的环境中具有重要的概括能力。
摘要。利用大型视觉模型(VLM)的有效表示来完成各种下游任务,引起了人们越来越多的关注。在该研究领域中,软提示学习已成为有效地适应VLM(例如剪辑)的代表性方法,例如图像分类。但是,大多数现有的及时学习方法都学习无法解释的文本令牌,这些文本令牌无法满足医疗保健等高风险场景中可解释的人工智能(XAI)的严格解释性要求。为了解决这个问题,我们提出了一个新颖的可解释的提示学习框架,该框架通过在多个差异方面对齐图像,可学习的提示和临床概念驱动的提示来利用医学知识。此外,我们的框架通过从大型语言模型中引起知识来解决缺乏宝贵的概念注释,并为提示提供了视觉和文字解释。在各种数据集上进行的广泛的实验和可解释性分析,有或没有概念标签,表明我们的方法同时实现了卓越的诊断性能,灵活性和解释性,并阐明了基础模型在促进XAI方面的有效性。该代码可在https://github.com/tommy-bie/xcoop上找到。
预测行人行为是确保自动驾驶汽车安全性和可靠性的关键。尽管通过从注释的视频框架序列中学习深入学习方法,但他们通常无法完全掌握行人与交通之间的动态相互作用,但可以进行准确的预测。这些模型也缺乏细微的常识推理。此外,这些模型的数据集的手动注释既昂贵又挑战,以适应新情况。视觉语言模型(VLM)的出现,由于其先进的视觉和因果推理技能,引入了这些问题的有希望的替代方案。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。 我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。 我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。 该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。 定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。 但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。
摘要 - 大多数现有的社会机器人导航技术要么利用手工制作的规则,要么是人类的示范,以将机器人感知与社会兼容的行动联系起来。但是,有效地将感知转化为具有社会符合社会的行动,就像人类推理在动态环境中自然发生一样。考虑到视觉模型(VLM)的最新成功,我们建议使用语言来弥合感知和具有社会意识的机器人行动之间类似人类的推理的差距。我们通过可解释的互动(SNEI)创建了一个视觉语言数据集,社交机器人导航,特征是基于2K人类机器人社交互动的40k人类通知的视觉问题答案(VQA),在非结构化的,拥挤的公共空间,跨越的公共空间,跨越感知,预测,预测,预测,三连锁推理,链的推理,行动,动作,动作,动作和解释。我们使用Snei微调了VLM,社交式,以演示我们数据集的实际应用。社交式的表现优于诸如GPT-4V和Gemini的最新模型,基于50个VQA的15种不同的人为法官得分的平均值。在船上部署了一个移动机器人,社交式实现了类似人类的推理,这标志着通过语言推理在动态公共空间中朝着社会兼容的机器人导航迈出的有希望的一步。
摘要 - 在大规模数据集上进行训练的Vision语言模型(VLMS)在各种视觉识别任务中表现出令人印象深刻的性能。这一进步为某些以自我为中心的任务,零射击以自我为中心的行动识别(ZS-EAR)的表现为著名的表现铺平了道路,这需要VLMS零射击,以识别从更现实的人类环境相互作用中富含第一人称视频的动作。通常,VLM将ZS-EAR作为全球视频文本匹配任务处理,这通常会导致视觉和语言知识的次优比对。我们提出了一种使用VLM的Zs-Ear的精致方法,强调了精细元素概念 - 描述对准,该对齐利用了以Egintric视频中丰富的语义和上下文细节来利用。在这项工作中,我们引入了一个直接但有效的VLM框架,即aka gpt4ego,旨在增强视觉和语言之间的概念和描述的细粒度对齐。具体来说,我们首先提出了一个新的面向自我的文本提示(EGOTP♠)方案,该方案通过将单词级别的类名与良好设计的链条链接的链中的文本提示提示,通过将单词级别的类名为句子级别的上下文描述来有效提示与动作相关的文本上下文语义。此外,我们设计了一种新的面向自我的视觉解析(EGOVP♣)策略,该策略通过在SAM的帮助下将全球级别的图像改进到部分级别的上下文概念来学习与动作相关的视觉 - 上下文语义。广泛的实验证明了GPT4EGO在三个大规模的以egintric视频基准上的表现明显优于现有的VLMS,即,Epic- Kitchens-100(33.2%↑+9。4),EGTEA(39.6%↑+5。 6)。4),EGTEA(39.6%↑+5。6)。5)和Cha-Radesego(31.5%↑+2。此外,从新颖的细粒概念和描述对齐的新机制中受益,GPT4EGO可以通过不断发展的预培训的基础模型的发展来可持续发展。我们希望这项工作可以鼓励以自我为中心的社区对预训练的视觉模型进行更多调查。
旨在开发一种可推广的计划方法,以进行偏爱的多对象重排。对个性化家庭对象重排的事先研究收集了模拟或人类演示的特定任务数据集,并试图匹配此数据集中存在的偏好[1,15,16,23]。然而,策划大量的人类示范数据集具有多种偏好是具有挑战性的。可能的偏好空间有效地无限。的偏好是高度的,并且取决于个人的身心质量。因此,收集代表所有用户偏见的数据集都是具有挑战性的。此外,这些偏好可能是复杂且抽象的。例如,某人首选的桌面设置可能基于可访问性,视觉美学或文化和传统规则。因此,以可推广的方式学习或建模这些偏好是不平凡的。最后,偏好通常被指定。通常会发出诸如“帮助我设置晚餐餐桌”之类的命令,但并不表明一个人喜欢为除了应该用硅胶设置的孩子以外的所有人使用陶瓷菜肴。以可操作性的方式详尽而明确地交流此类偏爱可能是乏味的,需要很难生产的精确语言。最近进入视觉和语言基础模型(VLM)为所有这三个问题提供了解决方案。我们在单步表设置任务上介绍了此方法的初始结果,并找到了我们方法的概念概念。我们希望开发一种可推广的个性化家庭重排的方法,即1)样品复杂性低2)能够建模有关对象重新安排的抽象和复杂偏好,3)即使根据指定的说明,也可以制定这些任务计划。大型语言模型(LLM)和在互联网量表数据上预处理的VLM已被证明可以有效解决无明确培训的无数任务。具体来说,将LLM与文本学习[3]相结合[3]在制定任务计划方面取得了长足的进步,这些任务计划可以在几次拍摄中根据易于指定的人类偏好[32]解决一般的多对象重排任务并根据这些任务解决这些任务。我们提出了一种初始方法,该方法利用了Internet规模验证的VLM中的这些最新进步,以根据个人喜好解决多对象重排任务,即使这些偏好尚未完全指定。
NZ SeaRise 方法是目前唯一可用于在一系列可能的未来气候变化情景下估计整个新西兰海岸 RSLR 的方法。使用环境模型或方法(如 NZ SeaRise,它们是新兴科学或包含不确定性)被认为适合在它们代表唯一可用信息时提供对复杂系统的洞察(MfE,2023b)。然而,由于这些类型的模型存在不确定性,建议将它们与多种信息源一起使用(MfE,2023b)。由于 NZ SeaRise 方法存在不确定性,特别是卫星得出的 VLM 速率,本指南建议采用多证据方法来评估 RSLR。本指南建议将它们作为预防方法的一部分,与动态自适应路径规划 (DAPP) 方法一起使用,该方法允许在出现新信息时调整路径。
[52]。对文本理由的需求仍然至关重要,尤其是在技术采用取决于这一因素的安全领域[29]。考虑端到端自动驾驶的域[11],其中通常通过深层神经网络处理摄像头输入执行驾驶策略以发电控制命令。在VLM中的最新步伐具有固体变压器作为多模式学习者,在视觉问题(VQA)(VQA)(VQA)等任务中表现出了出色的表现,并强调了它们在复杂任务的强大表示方面的熟练程度[14]。倾斜视觉语言模型(VLM)进入自主驾驶领域,有望增强对这些系统的用户信任。我们的重点是仅视觉的端到端自动驾驶,旨在弥合数据驱动的决策和用户信任之间的差距。我们介绍了lingoqa,这是一种专为自动驾驶视频QA而设计的台式标记,它利用了一个包含419k QA对的新型数据集。通过其自由形式的问题和诉讼方法来区分,该数据集扩大了自动驱动视频质量质量质量检查的范围,涵盖了推理和行动的合理性。此外,我们发布了一个全面的评估套件,该评估套件由1,000个示例组成。在我们的基准标准的核心上是一个基于一个学识渊博的文本分类器Lingo-Gudge的新颖评估指标,其灵感来自真实的GPT法官[34]。评估代码和分类的权重将与纸张一起释放,以支持强大的板凳标记自动驾驶中的视频问题。We perform rigorous stud- ies correlating automatic metrics to human preferences and find that Lingo-Judge achieves a 0.950 Spearman and 0.993 Pearson correlation coefficient, surpassing existing auto- mated labelling techniques like METEOR [ 5 ], BLEU [ 40 ], CIDEr [ 49 ], and GPT-4 [ 39 ] on our benchmark, while being fast enough for frequent runs during培训和发展。配备了此评估工具包,我们就关键组件及其在VLM中进行自动驾驶的融合进行了全面的经验研究。我们在第5节中的发现表明,最有效的方法涉及对配备Vicuna-1.5-7B的视觉语言模型的注意力层[13],均在动作和风景数据集上。此过程涉及在4秒内使用5个视频帧和一种晚期视频效果技术。我们的集体工作,跨越了LingoQA基准,视觉指导调查数据集和创新的评估指标,旨在推动语言提名的自主驾驶领域,为后续的研究和开发范围奠定了强大的基础。总结本文的主要贡献:
摘要 机翼结构的刚度方向已成为飞机设计优化的一部分。A350 XWB 和波音 787 等飞机主要由此类复合材料组成,其刚度方向可以优化。为了进行这种刚度优化,这项工作的目的是修改和优化线性应力-应变关系。因此,胡克定律被多线性公式取代,以分析机翼结构上的任何非线性弹性结构技术。用于研究非线性行为的机翼结构是从中程和远程飞机配置中推导出来的。这些机翼采用扩展梁法进行分析,并与 VLM 解决方案相结合以计算气动弹性载荷。所提出的梁法能够分析任何多线性机翼结构技术。递减的结构行为显示出减少弯矩的良好潜力,而弯矩是结构重量的主要驱动因素之一。