Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning
这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法自适应地调节类型……
UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity
从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……
即时工程 2.0。自动即时优化。AI 扩展神话。AGI 世界模型。什么是 AI 代理?领英上的 GenAI。失败的 AI 项目。Img2Txt2Txt 模型。RAGFlow。JEPA 深度探索。
AI 世界模型和视频。OpenAI Sora。加州大学伯克利分校大型世界模型。MetaAI V-JEPA SSL 模型。AI 操作系统。Mamba 模型深入研究。Phidata AI 助手。BCG AgentKit。