Loading...
机构名称:
¥ 1.0

视觉和语言导航(VLN)engoss从移动性的角度使用语言和视觉输入与自动驾驶汽车相互作用。该领域的大部分工作都集中在空间推理和视觉信息的语义基础上。但是,基于现场行人的行为的推理并不是那么考虑。在这项研究中,我们提供了一个VLN数据集,用于针对目标预测,以研究当前VLN模型执行动作推断的程度。我们介绍了一个众包过程,以两个步骤构建该任务的数据集:(1)考虑行人的下一个行动,考虑行人的下一个行动,考虑了行人的下一个行动,考虑行人的下一个动作。我们对目标预测的模型的基准测试结果使我们相信这些模型可以学会推理动作的效果以及对某个特定目的地的目标的效果。但是,仍然有很大的改进范围。

对视觉预测的行动推论 - 和...

对视觉预测的行动推论 - 和...PDF文件第1页

对视觉预测的行动推论 - 和...PDF文件第2页

对视觉预测的行动推论 - 和...PDF文件第3页

对视觉预测的行动推论 - 和...PDF文件第4页

对视觉预测的行动推论 - 和...PDF文件第5页