详细内容或原文请订阅后点击阅览
4M-21:适用于数十种任务和模式的任意视觉模型
*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......
来源:Apple机器学习研究