Scaling Laws for Native Multimodal Models
建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型(NMM)的建筑设计 - 从头开始训练的人 - 并进行广泛的……
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization
直接偏好优化(DPO)由于其简单性和有效性而被广泛采用大型语言模型(LLMS)的偏好对齐。但是,DPO被推导为匪徒问题,其中整个响应被视为单臂,忽略了令牌之间的重要性差异,这可能会影响优化效率,并且使得难以实现最佳结果。在这项工作中,我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励,因为令牌重要性没有差异。但是,由于…
EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing
扩散变压器已被广泛用于文本对图像合成。在将这些模型扩展到数十亿个参数显示出希望的同时,超越当前尺寸的缩放的有效性仍然没有充满挑战和具有挑战性。通过明确利用图像世代的计算异质性,我们开发了一个新的Experts(MOE)模型(MOE)模型(EC-DIT),用于具有专家选择路由的扩散变压器。 EC-DIT学会了适应性地优化分配的计算以了解输入文本并生成相应的图像补丁,从而实现异质性…
CoMotion: Concurrent Multi-Person 3D Motion
我们介绍了一种从单眼相机流中检测和跟踪多个人的详细3D姿势的方法。我们的系统在充满困难的姿势和遮挡的拥挤场景中保持了时间连贯的预测。我们的模型既可以执行强大的人均检测,又可以进行学习的姿势更新,以从框架到框架跟踪人们。 Poses并没有直接从新的输入图像中更新,而不是跨时间匹配检测,该图像可以通过遮挡在线跟踪。我们在许多图像和视频数据集上培训,以利用伪标记的注释来产生…
Understanding Aggregate Trends for Apple Intelligence Using Differential Privacy
在苹果公司,我们认为隐私是人类的基本权利。我们相信,在保护其隐私的同时为用户提供了丰富的经验。多年来,我们一直使用诸如差异隐私之类的技术作为我们选择装置分析计划的一部分。这使我们可以深入了解产品的使用方式,因此我们可以通过防止Apple从这些用户中查看个人级别数据来改进它们,同时保护用户隐私。在Apple Intelligence中也存在同样的需求,同样需要了解使用使用,同时保护隐私。我们的原则之一是苹果没有使用我们的用户……
FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
本文在ICLR 2025的野外基础模型的研讨会上接受了本文的理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如,考虑到一个人拿着一束鲜花的人的图像,我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是,大多数现有的图像编码范式代表图像作为固定的通用特征向量,可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在…
MM-Ego: Towards Building Egocentric Multimodal LLMs
这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标,我们在三个方面工作。首先,由于缺乏质量为中心的视频理解的质量检查数据,因此我们将自动生成7m高质量的质量质量样本,用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次,我们通过629个视频和7,026个问题来贡献一个具有挑战性的QA基准,以评估模型的识别能力和…
Language Models Know More Than They Show: Exploring Hallucinations From the Model's Viewpoint
大型语言模型(LLM)通常会产生错误,包括事实上的不准确性,偏见和推理失败,共同称为“幻觉”。最近的研究表明,LLMS的内部状态编码有关其产出真实性的信息,并且可以利用此信息来检测错误。在这项工作中,我们表明LLMS的内部表示与以前所认识的更多有关真实性的信息要多。我们首先发现真实信息集中在特定的令牌上,并利用这一点……
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling
专业语言模型(LMS)专注于特定的任务或域通常超过相同大小的通用LMS。但是,预算这些模型所需的专业数据仅适用于大多数任务。在这项工作中,我们改用大型通才训练集建立了专业模型。我们通过有限的特定领域数据的指导调整通才数据的训练分布。我们探索了几种方法,重要性采样脱颖而出。此方法将通才数据集和这些簇中的样本群集成……
The AdEMAMix Optimizer: Better, Faster, Older
基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度,并在经验上证明了该选择如何是最佳选择的:单个EMA不能同时给直接的过去带来高度的重量,而……
RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data
我们提出了RERCON,这是一种新型的自我监督的相对对比学习方法,用于训练从可穿戴加速度计量学传感器的运动基础模型。首先,对可学习的距离度量进行了训练,以捕获主题相似性和特定于域的语义信息,例如旋转不变性。然后,学到的距离提供了一对加速度计时序列之间语义相似性的测量,我们用来训练我们的基础模型,以对跨时间和主体进行相对关系模型。基础模型接受了87,376的10亿个细分市场的培训…
Controlling Language and Diffusion Models by Transporting Activations
大型生成模型变得越来越有能力,并且更广泛地部署到电力生产应用程序中,但是让这些模型确切地产生所需的东西仍然具有挑战性。对这些模型的输出的细粒度控制对于满足用户的期望和减轻潜在的滥用非常重要,从而确保了模型的可靠性和安全性。为了解决这些问题,Apple Machine Learning研究人员开发了一种新技术,该技术具有模态性敏捷性,并通过可忽略的计算开销对模型的行为进行了精细的控制,而…
Adaptive Batch Size for Privately Finding Second-order Stationary Points
在不同的隐私约束下找到一阶固定点(FOSP)和二阶固定点(SOSP)之间存在差距,而且尚不清楚私人发现SOSP是否比找到FOSP更具挑战性。具体而言,Ganesh等人。 (2023)声称可以在α= o〜(1n1/3+(dnϵ)3/7)\ alpha = \ tilde {o}(\ frac {1} {n^{n^{1/3}}}+(\(\) frac {\ sqrt {d}} {n \ epsilon})^{3/7})α= o〜(n1/31+(nϵd)3/7),其中nnn是数据集大小,ddd是维度,ϵ \ epsilonϵ是差分隐私参数。
Simple ReFlow: Improved Techniques for Fast Flow Models
扩散和流程匹配模型实现了显着的生成性能,但以许多抽样步骤的成本为代价,这会减慢推理并将适用性限制在关键任务中。回流过程可以通过拉直产生轨迹加速采样。但是,反流是一种迭代过程,通常需要对模拟数据进行培训,并导致样品质量降低。为了减轻样品恶化,我们检查了反流的设计空间,并在先前的启发式实践中突出了潜在的陷阱。然后,我们提出了七个训练动态的改进……
Do LLMs Know Internally When They Follow Instructions?
指令遵循的内容对于建立具有大语言模型(LLMS)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和准则。但是,LLM通常甚至无法遵循简单明了的说明。为了改善跟随指导行为并防止不良产出,需要更深入地了解LLMS内部状态与这些结果的关系。在这项工作中,我们调查了LLMS是否在其表示中编码与指导跟踪成功相关的信息 - 我们“内部知识”的属性。我们的分析…
MircoNN: An On-device Disk Resident Updatable Vector Database
最近对密集矢量收集的邻居搜索在信息检索,检索增强发电(RAG)和内容排名中具有重要的应用。在许多现有方法和开源实现的情况下,对大型向量收集进行有效的搜索是一个精心研究的问题。但是,大多数最先进的系统通常针对方案,使用大量内存,无法更新的静态矢量收集以及隔离其他搜索标准的最接近的邻居搜索。我们提出微型邻居…
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
建立用于用户界面(UI)理解的通才模型,这是由于各种基础问题(例如平台多样性,解决方案变化和数据限制)而具有挑战性的。在本文中,我们介绍了雪貂UI 2,这是一种多模式大语言模型(MLLM),旨在跨越包括iPhone,Android,Android,iPad,WebPage和AppleTV在内的广泛平台上的通用UI理解。 Ferret-UI 2以雪貂UI的基础为基础,引入了三个关键创新:对多种平台类型的支持,通过自适应缩放和高级任务的高分辨率感知……