VLM

2024-07-25 机构名称:

视觉语言模型驱动的计算机控制代理

大语言模型（LLM）可以调用各种工具和API来完成复杂的任务。作为最强大和最通用的工具，计算机可能会由训练有素的LLM代理控制。由计算机提供动力，我们可以希望建立一个更广泛的代理，以帮助人类进行各种日常数字作品。在本文中，我们为视觉语言模型（VLM）代理构建了一个环境，以与真实的compoter屏幕交互。在此环境中，代理可以通过输出鼠标和键盘操作来观察屏幕截图并操纵图形用户界面（GUI）。我们还设计了一个自动控制管道，其中包括计划，表演和反映阶段，指导代理商与环境不断互动并完成多步骤任务。此外，我们构建了Screena-Gent数据集，该数据集在完成每日计算机任务时会收集屏幕截图和计算序列。最后，我们培训了一个模型，即Crabitagent，该模型可以达到与GPT-4V的可比计算机控制能力，并展示了更精确的UI定位功能。我们的尝试可以进一步研究建立通才LLM代理商。代码和更详细的信息在https://github.com/niuzaisheng/screenagent上。

查看详细

File

2024-03-28 机构名称:

drivelm：用图形驾驶视觉问题回答

模型。drivelm-agent采用轨迹令牌092，可以应用于任何一般VLM [17、19、23、34]，093，以及图形提示方案，该方案模型logi-094 cal依赖关系作为VLMS的上下文输入。结果095是一种简单，优雅的方法，可有效地重新利用096 VLMS用于端到端AD。097我们的实验提供了令人鼓舞的结果。我们发现098在Drivelm上的GVQA是一项具有挑战性的任务，其中Cur-099租金方法获得适中的得分，并且可能需要更好地获得逻辑依赖的100型，以实现101强质量质量质量强大的效果。即使这样，在开放环计划环境中进行测试时，Drivelm-Agent已经有102个已经在最先进的驾驶特定103型型号[13]中竞争性地发挥作用，尽管其任务不合时宜和通用架构，但仍有104个模型。fur-105 Hoperore，采用图形结构可改善零弹性106概括，使Drivelm-Engent在训练或部署期间在108 Waymo DataSet [28]进行训练或仅在NUSCENES [3] 109数据上训练后，在108训练或部署期间都看不见新颖的对象。从这些结果中，我们认为，提高GVQA 110具有建立具有强烈概括的自动驾驶111代理的巨大潜力。112

查看详细

File

1900-01-01 机构名称:

Mohsin Shah

经验丰富的投资2024年6月 - 2024年8月数据工程实习生史密斯菲尔德，RI•与Amazon Lex创建了聊天机器人，用于通过JIRA跟踪的Amazon Lex；协助效率，并预计将查询减少40％。•设计了用于密码重置和用户注册的Splunk仪表板，为数百万用户识别摩擦和放弃点。•应用雪花SQL表和AWS S3迁移面向客户的网络安全数据，从而提高了5000多种年度演示文稿的数据安全性。Microsoft 2024年1月 - 2024年2月数据科学实习生，马萨诸塞州剑桥市•扩展了Azure ML负责任的AI工具箱和解释LLM的文本，例如GPT-4和Llama，辅助200,000多种模型评估的用户。•实施的石灰解释器，可自定义的基准测量指标和综合UI仪表板中的错误分析模块。•开发了5个教程笔记本，以拥抱面（GPT-Neo，Roberta）和OpenAI API（GPT-4，3.5，3）展示模型分析。马萨诸塞州阿默斯特大学2023年5月 - 2023年9月ML和NLP研究实习生| JaimeJ.Dávila教授| GitHub Code Amherst，马萨诸塞州•分析的多模式变压器模型：BLIP，GIT，剪辑和自定义视觉语言模型（VLM），带有BERT（LLM）编码，

查看详细

File

2024-09-20 机构名称:

思维驱动器：从驾驶现场理解到视觉语言模型的决策

摘要。自主驾驶最近在模拟和现实世界中都取得了令人印象深刻的进步，尤其是端到端方法。但是，这些模型通常充当黑匣子，并且缺乏解释性。大型语言模型（LLM）的出现通过将模块化自主驾驶与语言解释相结合，从而解决了潜在的解决方案。最新的LLM解决方案将驱动信息转换为语言，这些语言通常需要手动设计的提示，并可能导致次优信息效率。视觉语言模型（VLM）可以直接从图像中提取信息，但有时会在涉及持续驾驶场景理解和上下文推理的任务中挣扎。在本文中，我们提出了Think-Driver，这是一种视觉语言模型，该模型使用多视图图像来生成合理的驾驶决策和推理过程。我们的模型评估了感知到的交通状况，并评估当前驾驶操作的风险，从而有助于理性决策。通过闭环的话题，思想驱动器的表现优于其他视觉模型基础线，从而产生了可解释的驾驶决策，从而证明了其在未来应用中的有效性和潜力。

查看详细

File

2024-07-14 机构名称:

clearclip：分解剪辑表示密集的视觉语言推理

摘要。尽管大规模预处理的视觉模型（VLM）尤其是在各种开放式播放任务中的剪辑，但它们在语义细分中的应用仍然具有挑战性，从而产生了带有错误分段区域的嘈杂分段图。在本文中，我们仔细地重新调查了剪辑的架构，并将残留连接确定为降低质量质量的噪声的主要来源。通过对剩余连接中统计特性的比较分析和不同训练的模型的注意力输出，我们发现剪辑的图像文本对比训练范式强调了全局特征，以牺牲局部歧视，从而导致嘈杂的分割结果。在响应中，我们提出了一种新型方法，该方法是分解剪辑的表示形式以增强开放式语义语义分割的。我们对最后一层介绍了三个简单的修改：删除剩余连接，实现自我关注并丢弃馈送前进的网络。ClearClip始终生成更清晰，更准确的绘制图，并在多个基准测试中胜过现有的方法，从而确认了我们发现的重要性。

查看详细

File

2024-07-18 机构名称:

ClearClip：分解密度的剪辑表示...

查看详细

File

2024-09-26 机构名称:

使用多模式大语言模型（MLLM）进行运输中的对象检测：全面的审查和经验测试

本研究旨在全面审查和经验评估多模式大语模型（MLLM）和大型视觉模型（VLM）在运输系统的对象检测中的应用。在第一个折叠中，我们提供了有关MLLM在运输应用中的潜在好处的背景，并在先前的研究中对当前的MLLM技术进行了全面审查。我们强调了它们在各种运输方案中对象检测中的有效性和局限性。第二倍涉及在运输应用程序和未来方向中概述端到端对象检测的概述。在此基础上，我们提出了对三个现实世界传输问题测试MLLM的经验分析，其中包括对象检测任务，即道路安全属性提取，安全至关重要的事件检测和热图像的视觉推理。我们的发现提供了对MLLM性能的详细评估，揭示了优势和改进领域。最后，我们讨论了MLLM在增强运输中对象检测方面的实际限制和挑战，从而为该关键领域的未来研究和发展提供了路线图。

查看详细

File

2017-06-26 机构名称:

微型战斗机仿真模型开发...

本论文的主要目的是改进之前开发的缩比战斗机演示器的仿真模型。为了得到可靠的结果，仿真模型应该正确建模并使用准确的输入。为了实现这一目标，我们采取了两种方法，第一种方法是提供气动导数数据库，以便在仿真模型中实现，第二种方法是改进仿真模型的推进模块。气动数据库由几种 VLM 和面板方法软件生成，即 Tornado、VSPAero 和 XFLR5，它们使用缩比战斗机演示器通用未来战斗机 (GFF) 作为飞机模型。在将其实现到仿真模型之前，首先比较了不同方法和软件的结果。第二个过程包括增强推进模型和气动数据库的实现。推进模型增强包括推力建模的改进和燃料消耗模型的开发。此外，气动数据库的实现是通过将数据库的外部集自动连接到仿真模型来执行的。验证过程通过将仿真模型的结果与记录的飞行数据进行比较来进行，同时通过比较改进后的仿真模型和之前的仿真模型结果来查看改进的效果。使用改进的模型

查看详细

File

1900-01-01 机构名称:

增强具有生成负面挖掘的视觉语言模型的多模式组成推理

当代的大规模视觉语言模型（VLM）具有强大的表示能力，使它们无处不在，可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此，VLMS经常在构图推理任务上挣扎，这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素：1）对比的方法传统上专注于从现有数据集中开采负面示例。但是，该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2），但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘，即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制，我们提出了一个框架，不仅在两个方向上矿山，而且在这两种方式（即图像和文本）中产生了有挑战性的负面样本。利用这些生成硬性负样本，我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。

查看详细

File

2025-02-14 机构名称:

Limsim系列：一个自主驾驶模拟平台...

闭环模拟环境在自主驾驶系统（AD）的验证和增强中起着至关重要的作用。然而，某些挑战值得关注，包括平衡模拟准确性与持续时间平衡，将功能与实用性调和，并建立全面的评估机制。本文通过引入Limsim系列来解决这些挑战，这是一个综合模拟平台，旨在支持AD的快速部署和有效迭代。Limsim系列集成了来自道路网络的多类信息，采用了人类的决策和计划算法的背景车辆，并介绍了感兴趣领域（AOI）的概念（AOI）来优化计算资源。该平台提供了各种基线算法和用户友好的接口，从而促进了多个技术管道的灵活验证。此外，Limsim系列还包含了多维评估指标，对系统性能提供了彻底的见解，从而使研究人员能够迅速识别出进一步改进的问题。实验表明，LIMSIM系列与模块化，端到端和基于VLM的知识驱动系统兼容。它可以通过评估各种方案的性能来帮助迭代和更新广告。Limsim系列的代码发布于：https：//github.com/pjlab-adg/limsim。

查看详细

XiaoMi-AI文件搜索系统

VLM

视觉语言模型驱动的计算机控制代理

drivelm：用图形驾驶视觉问题回答

Mohsin Shah

思维驱动器：从驾驶现场理解到视觉语言模型的决策

clearclip：分解剪辑表示密集的视觉语言推理

ClearClip：分解密度的剪辑表示...

使用多模式大语言模型（MLLM）进行运输中的对象检测：全面的审查和经验测试

微型战斗机仿真模型开发...

增强具有生成负面挖掘的视觉语言模型的多模式组成推理

Limsim系列：一个自主驾驶模拟平台...

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI