图像理解关键词检索结果

UniGen-1.5:通过强化学习中的奖励统一增强图像生成和编辑

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......

标签会让人工智能失明吗?自我监督解决了古老的约束问题

Do Labels Make AI Blind? Self-Supervision Solves the Age-Old Binding Problem

一篇新的 NeurIPS 2025 论文展示了自监督学习如何为 ViT 提供比监督学习更好的图像理解帖子《标签会让 AI 失明吗?》自我监督解决了古老的约束问题首先出现在《走向数据科学》上。