Loading...
机构名称:
¥ 2.0

摘要。我们提出了一种新颖的提示范式 DetToolChain,以释放多模态大型语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本物体检测能力。我们的方法包括一个受高精度检测先验启发的检测提示工具包和一个用于实现这些提示的新思路链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如放大)、根据测量标准读取坐标(例如叠加尺子和圆规)以及从上下文信息中进行推断(例如叠加场景图)。基于这些工具,新的检测思路链可以自动将任务分解为简单的子任务,诊断预测并规划渐进式框细化。我们的框架的有效性在一系列检测任务中得到了证明,尤其是在困难情况下。与现有的最先进方法相比,使用我们的 DetToolChain 的 GPT-4V 可将最先进对象检测器的 AP 50 在 MS COCO Novel 类集(用于开放词汇检测)上提高 21.5%,在 RefCOCO val 集(用于零样本指称表达理解)上提高 24.23%,在 D-cube 描述对象检测 FULL 设置上提高 14.5% AP。代码将在接受后发布。

DetToolChain:释放 MLLM 检测能力的全新提示范式

DetToolChain:释放 MLLM 检测能力的全新提示范式PDF文件第1页

DetToolChain:释放 MLLM 检测能力的全新提示范式PDF文件第2页

DetToolChain:释放 MLLM 检测能力的全新提示范式PDF文件第3页

DetToolChain:释放 MLLM 检测能力的全新提示范式PDF文件第4页

DetToolChain:释放 MLLM 检测能力的全新提示范式PDF文件第5页

相关文件推荐

2009 年
¥17.0
2020 年
¥1.0
2020 年
¥2.0
2024 年
¥4.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2023 年
¥1.0
2021 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2018 年
¥1.0
2017 年
¥1.0
2020 年
¥17.0
2020 年
¥1.0
2021 年
¥18.0