机器人技术中的自主导航传统上依赖于预定的航路点和结构化图,从而限制了动态,真实世界环境中的可扩展性。缺乏通知的语言操作数据集进一步使语言驱动的导航模型的发展变得复杂。受到大规模视觉语言模型(VLM),图像生成模型和基于视觉的机器人控制的最新进展的启发,我们提出了使用VLM引导的图像子缘合成(ELVISS)探索探索的框架,以增强使用用户指示的机器人导航任务的勘探。此框架利用VLMS的语义推理将复杂的任务分解为更简单的任务,并通过生成由低级策略执行的与任务相关的图像子搜索来执行它们。我们还结合了一个基于VLM的子量验证循环,以最大程度地减少执行未生成的子观念。实验结果表明,我们的验证循环显着改善了执行操作与我们的指令的对齐,并且我们的结果系统能够执行基于广义的基于搜索的说明。
摘要 - 生成AI系统在创建文本,代码和图像方面表现出了令人印象深刻的功能。受到组装工业设计研究的丰富历史的启发,我们引入了一个新颖的问题:生成设计 - 机器人组装(GDFRA)。任务是基于自然语言提示(例如“长颈鹿”)生成一个组装,以及可用物理组件的图像,例如3D打印的块。输出是一个组件,这些组件的空间排列,也是机器人构建此组件的指令。输出必须1)类似于请求的对象,2)由6 Dof机器人组可靠地组装,并带有吸入抓手。然后,我们提出了Blox-net,这是一种将一般视觉模型与计算机视觉,模拟,扰动分析,运动计划和物理机器人实验的方法相结合的GDFRA系统,以解决最小的人类监督的GDFRA问题。blox-net在其设计的组件的语义准确性中达到了63.5%的前1个精度。这些设计在自动渗透性重新设计后,由机器人可靠地组装,在10个连续的组装迭代中获得了接近完美的成功,仅在组装前重置期间使用人干预。令人惊讶的是,从文本单词到可靠的物理组装的整个设计过程都是通过零人工干预执行的。
由于防御机制不足。例如,HAL-036语言模型的透明度和幻觉[14]可能会影响037对场景的可靠理解,从而导致机器人系统中不希望的038动作。另一个风险来源是039是LLMS/VLMS无法解决文本或图像提供的040上下文信息的歧义[35,52]。041由于当前语言模型通常遵循模板-042的提示格式来执行任务[16,29],因此缺乏043在解决自然044语言的变体和同义词时缺乏灵活性也可能导致045个提示的误解[24,43]。此外,在提示046中使用多模式的输入增加了上下文理解的难度和047推理的难度,这可能导致更高的失败风险[8,18]。048在实际应用中,这些风险将对机器人系统的鲁棒性和安全构成重大挑战。050我们的目标是分析语言模型和机器人技术的可信度和可靠性051。在这方面,我们的目标是052通过广泛的实验提高对机器人应用程序054的最先进语言模型的安全问题的认识。我们表明,需要对该主题进行进一步的研究055,以安全地部署基于LLM/VLM的056机器人,以实现现实世界应用程序。我们的主要重点是057
Lekha Revankar Phd量表 - 遥感中的识别2023-2024 Rajeev Datta Phd变更事件识别2024 Chai-Hsiang Kao Phd Phd遥感问题答复剂2024 Sumit Sarin Masters通过Translation通过翻译2023-2024 Madhav Aggarwal Masters Distection 2024 Nath Natection 2023-24嵌入2024 Snehal Bhagat掌握了有效的变更事件检测2024 Selina Xiao遥感VLMS的概括VLMS 2024 JENNY JIN遥感VLMS 2024 HANGYU ZHOU ZHOU ZHOU本科云的本科生检测和Removal cloud dection and Removal 2021-2024 Aaron yaaron yaaron yaaron Yagraducutnik vlm vnik vlm vnik vlm vnik vlm vlm vlm vlm vlm vlm vlm sait vilmand vlmand vlm sait vilmand vlm saut vlm saT Gunda本科用户界面的卫星图像搜索2024 Anant Shyam本科VLM for Landsat Imagery 2024 JT Klenke本科生开放式Vocabulary细分2024
摘要 - 关于自动驾驶的大语言模型的重新研究显示了计划和控制方面的希望。然而,高计算需求和幻觉仍然挑战准确的轨迹预测和控制信号基础。确定性算法具有可靠性,但缺乏适应能力,无法复杂驾驶场景,并在上下文和不确定性上挣扎。为了解决这个问题,我们提出了VLM-Auto,这是一种新型的自动驾驶助手系统,以基于对道路场景的理解,以可调节的驾驶行为来赋予自动驾驶汽车。涉及Carla模拟器和机器人操作系统2(ROS2)的管道验证了我们系统的有效性,并利用单个NVIDIA 4090 24G GPU,同时利用视觉语言模型(VLM)的文本输出能力。此外,我们还为包含图像集的数据集和用于微调系统的VLM模块的相应提示集。在卡拉实验中,我们的系统达到了97。我们数据集中5种标签的平均精度为82%。在实际驾驶数据集中,我们的系统实现了96。在夜面场景和令人沮丧的场景中的预测准确性为97%。我们的VLM-AUTO数据集将在https://github.com/ziongo6/vlm-auto上发布。
本文探讨了视觉语言模型 (VLM) 作为操作代理在太空领域的应用,重点关注软件和硬件操作范例。基于大型语言模型 (LLM) 及其多模态扩展的进步,我们研究了 VLM 如何增强太空任务中的自主控制和决策。在软件环境中,我们在 Kerbal 太空计划差分博弈 (KSPDG) 模拟环境中使用 VLM,使代理能够解释图形用户界面的视觉屏幕截图以执行复杂的轨道机动。在硬件环境中,我们将 VLM 与配备摄像头的机器人系统集成在一起,以检查和诊断物理空间物体,例如卫星。我们的结果表明,VLM 可以有效地处理视觉和文本数据以生成适合上下文的操作,在模拟任务中与传统方法和非多模态 LLM 竞争,并在实际应用中显示出良好的前景。
医学视觉语言模型 (VLM) 结合了计算机视觉 (CV) 和自然语言处理 (NLP) 来分析视觉和文本医学数据。本文回顾了医疗保健专用 VLM 的最新进展,重点介绍了专为医疗报告生成和视觉问答 (VQA) 设计的模型。我们提供了 NLP 和 CV 的背景知识,解释了如何将这两个领域的技术集成到 VLM 中以实现从多模态数据中学习。我们讨论的关键领域包括医学视觉语言数据集的探索、最近值得关注的医学 VLM 中采用的架构和预训练策略的深入分析,以及对评估 VLM 在医疗报告生成和 VQA 中的表现的评估指标的全面讨论。我们还强调了当前的挑战并提出了未来的方向,包括提高临床有效性和解决患者隐私问题。总体而言,我们的综述总结了开发 VLM 以利用多模态医疗数据来改进医疗保健应用的最新进展。
来自美国田纳西州纳什维尔范德比尔特大学生物医学工程系(DJD、GWJ、SN、HFJG、C. Chang.、VLM、C. Constantinidis、DJE)、成像科学研究所(DJD、GWJ、SN、JSS、JWJ、HFJG、C. Chang、VLM、BMD、DJE)以及电气与计算机工程系(C. Chang、BMD、DJE)、计算机科学系(C. Chang)和神经科学系(C. Constantinidis);美国田纳西州纳什维尔范德比尔特外科与工程研究所(DJD、GWJ、SN、HFJG、C. Chang、VLM、BMD、DJE);田纳西州纳什维尔范德比尔特大学医学中心神经外科系(SN、JSS、JWJ、DLP、VLM、DJE)、神经内科系(VLM)、放射科学系(VLM、DJE)以及眼科和视觉科学系(C. Constantinidis);宾夕法尼亚州费城宾夕法尼亚大学生物工程系(AL)、神经科学系(KAD)、神经工程与治疗中心(KAD)和神经内科系(KAD)。
本文介绍了一种适用于 Renishaw AM400 金属打印机的创新培训系统,该系统利用数字孪生 (DT) 框架内先进的视觉语言模型 (VLM) 与增强现实 (AR) 的协同作用。为了克服金属增材制造 (AM) 中传统培训方法的局限性,我们的系统集成了 AR 以提供沉浸式学习环境,并通过交互式数字叠加增强了现实世界的体验。该系统的核心在于使用 VLM,VLM 已在各种数据集上进行了预先训练,擅长处理多模态数据,从而为受训者提供细致入微且与上下文相关的指导。关键实验证明了该系统的有效性,特别强调了使用 VLM 作为人工智能 (AI) 代理来集成外部工具,例如用于阀门状态分类的 YOLO-v7 和用于控制面板文本识别的 CRAFT。这种方法显著提高了识别准确性、操作理解和人机交互,尤其是对于非专家用户而言,使复杂的金属 AM 操作更容易上手。该研究不仅展示了AR和VLM在工业培训中的潜力,而且为智能制造实践树立了新的标准,预示着其在各个工业领域的应用前景更加广阔。
在本文中,我们为VLM提出了一种新颖的视觉提示方法,我们使用迭代视觉优化(Pivot)称为提示,该方法将任务作为迭代视觉问题的回答。在每次迭代中,图像都用VLM可以参考的建议的可视化表示(例如,候选机器人动作,本地化或轨迹)。VLM然后为任务选择最佳操作。这些建议是迭代的重新编写,使VLM最终可以在最佳的答案中零。我们研究了对现实世界机器人导航的枢纽,图像中的现实世界操纵,仿真中的指令以及其他空间推断任务(例如本地化)。我们发现,令人惊讶的是,我们的方法可以在没有任何机器人培训数据,各种环境中导航以及其他功能的机器人系统进行零射击控制。尽管目前的表现远非完美,但我们的工作突出了这种新制度的潜力和局限性,并在机器人和空间推理域中展示了互联网规模VLM的有前途的方法。