语言量化自动编码器___XiaoMi-AI 助力科研平台

语言量化自动编码器

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

语言量化自动编码器

¥ 1.0

热度

在扩大大型语言模型方面的最新进展表现出令人印象深刻的能力，可以在各种自然语言任务中进行几次学习。但是，一个关键的限制是，这些语言模型从根本上缺乏视觉感知的基础 - 扩展到现实世界任务所需的关键属性，例如在视觉问题上的答案和机器人技术中。虽然先前的作品在很大程度上通过预处理或微调将图像与文本联系在一起，但由于结合了策划的大量数据集和较大的计算负担，学习对齐方式通常是昂贵的。In order to resolve these limitations, we propose a simple yet effective approach called L anguage- Q uantized A uto E ncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language model denoisers ( e .g .bert）。我们的主要思想是通过使用验证的语言代码簿直接量化图像嵌入来编码图像作为文本令牌的序列。然后，我们将量化嵌入的蒙版版本送入BERT，以重建原始输入。这样做，LQAE学会了用相似的文本令牌表示相似的图像，从而在不使用对齐的文本图像对的情况下对齐这两种方式。我们向LQAE显示了学习文本对准图像令牌，这些图像令牌可以通过大型语言模型启用几示多式模式学习，在诸如图像分类和VQA等任务中的基线方法优于基线方法，同时需要1-10张图像 - text Pairs 1。

添加pdf代下载 VIP点击下载文件