语言量化自动编码器
机构名称:
¥ 1.0

在扩大大型语言模型方面的最新进展表现出令人印象深刻的能力,可以在各种自然语言任务中进行几次学习。但是,一个关键的限制是,这些语言模型从根本上缺乏视觉感知的基础 - 扩展到现实世界任务所需的关键属性,例如在视觉问题上的答案和机器人技术中。虽然先前的作品在很大程度上通过预处理或微调将图像与文本联系在一起,但由于结合了策划的大量数据集和较大的计算负担,学习对齐方式通常是昂贵的。In order to resolve these limitations, we propose a simple yet effective approach called L anguage- Q uantized A uto E ncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language model denoisers ( e .g .bert)。我们的主要思想是通过使用验证的语言代码簿直接量化图像嵌入来编码图像作为文本令牌的序列。然后,我们将量化嵌入的蒙版版本送入BERT,以重建原始输入。这样做,LQAE学会了用相似的文本令牌表示相似的图像,从而在不使用对齐的文本图像对的情况下对齐这两种方式。我们向LQAE显示了学习文本对准图像令牌,这些图像令牌可以通过大型语言模型启用几示多式模式学习,在诸如图像分类和VQA等任务中的基线方法优于基线方法,同时需要1-10张图像 - text Pairs 1。

语言量化自动编码器

语言量化自动编码器PDF文件第1页

语言量化自动编码器PDF文件第2页

语言量化自动编码器PDF文件第3页

语言量化自动编码器PDF文件第4页

语言量化自动编码器PDF文件第5页

相关文件推荐

量化
2020 年
¥7.0
语言问题
2023 年
¥1.0
国家语言安全战略
2020 年
¥4.0
自动取款机
2020 年
¥1.0
4 规范量化
2020 年
¥2.0
自动空气密封
2021 年
¥1.0
大脑与语言
2022 年
¥1.0
脑间耦合的量化
2023 年
¥2.0
密钥编码器
2023 年
¥1.0
语言服务
2024 年
¥1.0
大脑和语言
2021 年
¥1.0
语言和经济
2020 年
¥21.0