Depth Pro:不到一秒即可实现清晰的单目度量深度

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议

来源:Apple机器学习研究

我们提出了一个用于零击公制单眼估计的基础模型。我们的模型Depth Pro与无与伦比的清晰度和高频细节合成了高分辨率深度图。这些预测是指标,绝对规模,而不依赖于元数据的可用性,例如摄像机内在。该模型很快,在标准GPU上在0.3秒内产生2.25百万像素的深度图。这些特征是通过许多技术贡献来实现的,包括用于密集预测的有效的多尺度视觉变压器,这是一种结合实际和合成数据集的训练协议,以实现高度指标的精度以及精细的边界跟踪,专用的评估指标,用于估计深度图的边界准确性,以及从单位图像估计的局部景点长度估计。广泛的实验分析了特定的设计选择,并证明深度沿多个维度优于先前的工作。

图1:来自AM2K和DIS5K的示例图像的Depth Pro结果。