在本研究中,我们使用视觉语言模型 (VLM) 作为二元成功检测器,给定机器人观察和任务描述,将其表述为视觉问答 (VQA) 问题。我们对开源 MiniGPT-4 VLM 进行了微调,以检测来自 Berkeley Bridge 和 Berkeley AUTOLab UR5 数据集的机器人轨迹上的成功。我们发现,虽然少量测试分布轨迹可以训练出准确的检测器,但由于分布偏移,在不同环境之间迁移学习具有挑战性。此外,虽然我们的 VLM 对语言变化具有鲁棒性,但对视觉变化的鲁棒性较差。未来,更强大的 VLM(例如 Gemini 和 GPT-4)有可能成为更准确、更强大的成功检测器,并且成功检测器可以提供稀疏的二元奖励来改进现有策略。
EXPERIENCE Robotics & Automation Intern, Automation, Robotics, & Controls (E-3), Los Alamos National Laboratory May 2024-August 2024 • Integrated ClearPath Ridgeback mobile robot with UR5 by modifying the power system and led the electrical portion of a demonstration project within an interdisciplinary team • Developed a computer vision system using AI/ML and Intel Real Sense Cameras, deploying and configuring a ROS网络•访问控制和数据获取系统的传感器,并开发了Labview Vis Visive vis Visive vis vising vishergrad研究员,电气和计算机工程,肯塔基大学,2023年1月,2024年1月 - 2024年1月•使用AI和传统算法使用AI和传统算法来优化使用Python和Materlab的Superiations>“使用AI和传统算法”,以设计轨迹和传统算法,以设计自动轨迹• •进行了全面的文献综述,以识别研究空白并告知算法的发展•使用神经网络AI来创建启发式方法,以估算危险成本,以使自主系统在安全保证金项目经理中,主动控制研究和控制研究专家,Spacelex(Spacelex)(学生组织)(学生组织),2022年9月2024年2024年•$ 15•$ 10成员互动,并建立了$ 10的成员互助,并建立了$ 10 ,,
