Point-3D LLM:使用大语言模型研究令牌结构对3D场景理解的影响

有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…

来源:Apple机器学习研究

在3D点云中准确检测对象是许多应用程序中的一个核心问题,例如自主导航,管家机器人和增强/虚拟现实。为了将稀疏的激光雷达点云与区域提案网络(RPN)接口,大多数现有的努力都集中在手工制作的特征表示上,例如,鸟类的眼景投影。在这项工作中,我们删除了3D的手动功能工程的需求…

阅读更多