使用 xT 建模超大图像 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 xT 建模超大图像

2024年3月21日 02:00 33 Comments

作为计算机视觉研究人员，我们相信每个像素都可以讲述一个故事。然而，在处理大图像时，似乎出现了写作障碍。大图像已不再罕见——我们口袋里携带的相机和绕地球旋转的相机拍摄的照片非常大且细节丰富，以至于在处理这些照片时，它们会将我们目前最好的模型和硬件推到极限。通常，随着图像大小的增加，内存使用量会呈二次方增长。今天，我们在处理大图像时会做出两个次优选择之一：下采样或裁剪。这两种方法会导致图像中存在的信息量和上下文的严重损失。我们重新审视这些方法，并引入了 $x$T，这是一个新的框架，用于在当代 GPU 上端到端地对大图像进行建模，同时有效地将全局上下文与局部细节聚合在一起。$x$T 框架的架构。为什么要费心处理大图像？为什么要费心处理大图像？想象一下自己坐在电视机前，观看您最喜欢的足球队。球场上到处都是球员，每次只有一小部分屏幕在进行比赛。但是，如果您只能看到球当前所在位置周围的一小块区域，您会满意吗？或者，您会满足于以低分辨率观看比赛吗？每个像素都讲述了一个故事，无论它们相距多远。这在电视屏幕的所有领域都是如此

来源:BAIR

作为计算机视觉研究人员，我们相信每个像素都可以讲述一个故事。然而，在处理大图像时，似乎存在一种写作障碍。大图像不再罕见——我们口袋里携带的相机和绕地球运行的相机拍摄的照片如此之大、如此详细，以至于在处理它们时，它们会将我们当前最好的模型和硬件推到极限。通常，我们面临的内存使用量会随着图像大小而呈二次方增长。

今天，我们在处理大图像时会做出两个次优选择之一：下采样或裁剪。这两种方法会严重损失图像中存在的信息量和上下文。我们重新审视这些方法，并引入 $x$T，这是一个新的框架，用于在当代 GPU 上端到端地对大图像进行建模，同时有效地将全局上下文与局部细节聚合在一起。

$x$T 框架的架构。

$x$T 框架的架构。

为什么要费心处理大图像？

为什么要费心处理大图像？想象一下您坐在电视机前，观看您最喜欢的足球队比赛。球场上到处都是球员，每次只有一小部分屏幕在进行动作。但是，如果您只能看到球当前所在位置周围的一小块区域，您会满意吗？或者，您会满足于以低分辨率观看比赛吗？每个像素都讲述了一个故事，无论它们相距多远。从您的电视屏幕到病理学家查看千兆像素幻灯片以诊断微小的癌症斑块，在所有领域都是如此。这些图像是信息的宝库。如果我们无法充分探索财富，因为我们的工具无法处理地图，那还有什么意义呢？

当您知道发生了什么时，体育运动很有趣。

当您知道发生了什么时，体育运动很有趣。

$x$T 如何尝试修复此问题

嵌套标记化

嵌套 区域编码器

协调区域和上下文编码器

Swin Hiera ConvNeXt Transformer-XL ^* ^*

编码器嵌套拍摄像素架构相机观看区域处理费心框架无法方法图像比赛上下文