The AdEMAMix Optimizer: Better, Faster, Older
基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度,并在经验上证明了该选择如何是最佳选择的:单个EMA不能同时给直接的过去带来高度的重量,而……
MircoNN: An On-device Disk Resident Updatable Vector Database
最近对密集矢量收集的邻居搜索在信息检索,检索增强发电(RAG)和内容排名中具有重要的应用。在许多现有方法和开源实现的情况下,对大型向量收集进行有效的搜索是一个精心研究的问题。但是,大多数最先进的系统通常针对方案,使用大量内存,无法更新的静态矢量收集以及隔离其他搜索标准的最接近的邻居搜索。我们提出微型邻居…
RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data
我们提出了RERCON,这是一种新型的自我监督的相对对比学习方法,用于训练从可穿戴加速度计量学传感器的运动基础模型。首先,对可学习的距离度量进行了训练,以捕获主题相似性和特定于域的语义信息,例如旋转不变性。然后,学到的距离提供了一对加速度计时序列之间语义相似性的测量,我们用来训练我们的基础模型,以对跨时间和主体进行相对关系模型。基础模型接受了87,376的10亿个细分市场的培训…
Adaptive Batch Size for Privately Finding Second-order Stationary Points
在不同的隐私约束下找到一阶固定点(FOSP)和二阶固定点(SOSP)之间存在差距,而且尚不清楚私人发现SOSP是否比找到FOSP更具挑战性。具体而言,Ganesh等人。 (2023)声称可以在α= o〜(1n1/3+(dnϵ)3/7)\ alpha = \ tilde {o}(\ frac {1} {n^{n^{1/3}}}+(\(\) frac {\ sqrt {d}} {n \ epsilon})^{3/7})α= o〜(n1/31+(nϵd)3/7),其中nnn是数据集大小,ddd是维度,ϵ \ epsilonϵ是差分隐私参数。
Simple ReFlow: Improved Techniques for Fast Flow Models
扩散和流程匹配模型实现了显着的生成性能,但以许多抽样步骤的成本为代价,这会减慢推理并将适用性限制在关键任务中。回流过程可以通过拉直产生轨迹加速采样。但是,反流是一种迭代过程,通常需要对模拟数据进行培训,并导致样品质量降低。为了减轻样品恶化,我们检查了反流的设计空间,并在先前的启发式实践中突出了潜在的陷阱。然后,我们提出了七个训练动态的改进……
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
建立用于用户界面(UI)理解的通才模型,这是由于各种基础问题(例如平台多样性,解决方案变化和数据限制)而具有挑战性的。在本文中,我们介绍了雪貂UI 2,这是一种多模式大语言模型(MLLM),旨在跨越包括iPhone,Android,Android,iPad,WebPage和AppleTV在内的广泛平台上的通用UI理解。 Ferret-UI 2以雪貂UI的基础为基础,引入了三个关键创新:对多种平台类型的支持,通过自适应缩放和高级任务的高分辨率感知……
Do LLMs Know Internally When They Follow Instructions?
指令遵循的内容对于建立具有大语言模型(LLMS)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和准则。但是,LLM通常甚至无法遵循简单明了的说明。为了改善跟随指导行为并防止不良产出,需要更深入地了解LLMS内部状态与这些结果的关系。在这项工作中,我们调查了LLMS是否在其表示中编码与指导跟踪成功相关的信息 - 我们“内部知识”的属性。我们的分析…
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling
专业语言模型(LMS)专注于特定的任务或域通常超过相同大小的通用LMS。但是,预算这些模型所需的专业数据仅适用于大多数任务。在这项工作中,我们改用大型通才训练集建立了专业模型。我们通过有限的特定领域数据的指导调整通才数据的训练分布。我们探索了几种方法,重要性采样脱颖而出。此方法将通才数据集和这些簇中的样本群集成……
Controlling Language and Diffusion Models by Transporting Activations
大型生成模型变得越来越有能力,并且更广泛地部署到电力生产应用程序中,但是让这些模型确切地产生所需的东西仍然具有挑战性。对这些模型的输出的细粒度控制对于满足用户的期望和减轻潜在的滥用非常重要,从而确保了模型的可靠性和安全性。为了解决这些问题,Apple Machine Learning研究人员开发了一种新技术,该技术具有模态性敏捷性,并通过可忽略的计算开销对模型的行为进行了精细的控制,而…
TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining
在Neurips 2024的终身基础模型(SCLLFM)讲习班的可伸缩持续学习中接受了本文。LARGE语言模型(LLMS)受过历史网络数据的培训不可避免地会过时。随着新数据的可用,我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集,以用于从114个常见爬网(CC)垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定域的时间分层评估……
Do LLMs Estimate Uncertainty Well in Instruction-Following?
大型语言模型(LLMS)可能是各个域中有价值的个人AI代理,只要它们可以准确地遵循用户说明即可。但是,最近的研究表明,LLMS的指导遵循功能有显着局限性,这引起了人们对其在高风险应用中的可靠性的担忧。准确地估计LLM在遵守指令中的不确定性对于减轻部署风险至关重要。据我们所知,我们介绍了在遵循教学的背景下对LLM的不确定性估计能力的第一个系统评估。我们的研究确定了……
Revisit Large-Scale Image–Caption Data in Pre-training Multimodal Foundation Models
多模式模型的最新进展突出了改写字幕对提高性能的价值,但仍然存在关键挑战。值得注意的是,综合标题的作用及其与原始网络爬行的AltTexts在预训练中的相互作用尚不清楚。此外,不同的多模式基础模型可能对特定标题格式具有不同的偏好,而研究每个基础模型的最佳字幕的努力仍然有限。在这项工作中,我们介绍了一种新颖,可控且可扩展的字幕管道,该管道产生了不同的字幕格式……
Apple Workshop on Natural Language Understanding 2024
自然语言处理中的进展可以实现与技术互动的更直观的方式。例如,苹果公司的许多产品和服务,包括Siri和搜索,使用自然的语言理解和生成来为用户提供流利而无缝的界面体验。自然语言是机器学习研究的一个快速移动的领域,包括跨多种语言,新颖的体系结构和算法以及新的评估制度的大规模数据策划的工作,所有这些都涉及隐私和安全的重要问题,以及……
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators
大型语言模型(LLM)已改变了自然语言处理,但是由于其运行时的成本很高,因此在广泛部署方面面临着巨大的挑战。在本文中,我们介绍了一种新型的培训后压缩方法,该方法使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重,请在推断过程中为被馈入线性反馈移位寄存器(LFSR)的种子,以有效地生成随机矩阵。然后将该矩阵与压缩系数线性结合,以重建重量块……
Interpreting and Improving Optimal Control Problems With Directional Corrections
许多机器人技术任务,例如路径规划或轨迹优化,被表达为最佳控制问题(OCP)。获得高性能的关键在于OCP目标函数的设计。实际上,目标函数由一组单个组件组成,必须仔细建模和交易,以使OCP具有所需的解决方案。平衡多个组件以实现所需的解决方案并了解解决方案时,通常是具有挑战性的,即在不希望的情况下会影响个人成本组件的影响。在本文中,我们提出一个框架…
Universally Instance-Optimal Mechanisms for Private Statistical Estimation
我们考虑了在差异隐私的约束下,实例 - 最佳统计估计的问题,机制必须适应输入数据集的难度。我们证明了使用新的差异来确定实例特定的下限,并证明它是局部统计估计的局部最小值最佳率。我们提出了两种新的机制,这些机制在实例上是最佳的,对于对数因素而言,对于一般估计问题而言。我们的第一感机理,总变化机制,建立在指数机制上,总近似值……
The Role of Prosody in Spoken Question Answering
口语理解迄今为止的研究通常具有沉重的文本视角。大多数数据集源自文本,然后将其合成到语音中,大多数模型通常依赖于语音的自动转录。这损害了韵律 - 语音信号所携带的添加信息超出了单词本身的语音,并且很难单独从文本中恢复。在这项工作中,我们调查了韵律在口头问题回答中的作用。通过在SLUE-SQA-5数据集上隔离韵律和词汇信息,该信息由…
自发的语音情感数据通常包含感知成绩,在听语音文件后,等级分配情感得分。由于级别的意见差异,这种感知等级引起了标签的不确定性。通过使用共识等级作为地面图,选择了最高投票的情绪,因此可以解决级别的变化,因此无法考虑含糊的情况,在这种情况下,语音样本可能包含多种情绪,如通过级别的意见不确定性所捕获的那样。我们证明,将情绪等级的概率密度函数作为…