Loading...
机构名称:
¥ 1.0

摘要。AI研究界的基本任务之一是建立一个自主体现的代理,该代理可以在各种各样的任务中实现高级绩效。但是,为所有开放式任务获取或手动设计奖励是不现实的。在本文中,我们提出了一种新颖的跨模式对比学习框架 - 夹子4MC,旨在学习加强学习(RL)友好的视觉语言模型(VLM),该模型(VLM)充当开放式任务的无限奖励功能。仅利用视频片段和语言提示之间的模拟性不友好,因为标准VLMS只能在粗级上捕获相似性。为了实现RL友好性,我们将任务完成学位纳入了VLM培训目标,因为这些信息可以根据区分不同状态之间的重要性。此外,我们根据MinedoJo提供的大规模YouTube数据库提供整洁的YouTube数据集。具体来说,两轮过滤操作保证数据集涵盖了足够的基本信息,并且视频文本对高度相关。经验,我们证明了所提出的方法与基准相比,在RL任务上可以更好地进行性能。代码和数据集可在https://github.com/pku-rl/clip4mc上找到。

Minecraft的增强学习友好视觉语言模型

Minecraft的增强学习友好视觉语言模型PDF文件第1页

Minecraft的增强学习友好视觉语言模型PDF文件第2页

Minecraft的增强学习友好视觉语言模型PDF文件第3页

Minecraft的增强学习友好视觉语言模型PDF文件第4页

Minecraft的增强学习友好视觉语言模型PDF文件第5页

相关文件推荐

2024 年
¥13.0
1900 年
¥12.0
2021 年
¥5.0
2025 年
¥2.0
2025 年
¥8.0
2024 年
¥1.0
2021 年
¥1.0