Apple机器学习研究领域信息情报检索---XiaoMi-AI

2025年4月15日 00:00

comotion：并发多人3D运动

CoMotion: Concurrent Multi-Person 3D Motion

我们介绍了一种从单眼相机流中检测和跟踪多个人的详细3D姿势的方法。我们的系统在充满困难的姿势和遮挡的拥挤场景中保持了时间连贯的预测。我们的模型既可以执行强大的人均检测，又可以进行学习的姿势更新，以从框架到框架跟踪人们。 Poses并没有直接从新的输入图像中更新，而不是跨时间匹配检测，该图像可以通过遮挡在线跟踪。我们在许多图像和视频数据集上培训，以利用伪标记的注释来产生…

2025年4月15日 00:00

ec-dit：使用自适应专家选择路由缩放扩散变压器

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

扩散变压器已被广泛用于文本对图像合成。在将这些模型扩展到数十亿个参数显示出希望的同时，超越当前尺寸的缩放的有效性仍然没有充满挑战和具有挑战性。通过明确利用图像世代的计算异质性，我们开发了一个新的Experts（MOE）模型（MOE）模型（EC-DIT），用于具有专家选择路由的扩散变压器。 EC-DIT学会了适应性地优化分配的计算以了解输入文本并生成相应的图像补丁，从而实现异质性…

2025年4月15日 00:00

tis-dpo：直接偏好优化的令牌级别的重要性采样

TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization

直接偏好优化（DPO）由于其简单性和有效性而被广泛采用大型语言模型（LLMS）的偏好对齐。但是，DPO被推导为匪徒问题，其中整个响应被视为单臂，忽略了令牌之间的重要性差异，这可能会影响优化效率，并且使得难以实现最佳结果。在这项工作中，我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励，因为令牌重要性没有差异。但是，由于…

2025年4月14日 00:00

了解使用差异隐私的苹果智能的总趋势

Understanding Aggregate Trends for Apple Intelligence Using Differential Privacy

在苹果公司，我们认为隐私是人类的基本权利。我们相信，在保护其隐私的同时为用户提供了丰富的经验。多年来，我们一直使用诸如差异隐私之类的技术作为我们选择装置分析计划的一部分。这使我们可以深入了解产品的使用方式，因此我们可以通过防止Apple从这些用户中查看个人级别数据来改进它们，同时保护用户隐私。在Apple Intelligence中也存在同样的需求，同样需要了解使用使用，同时保护隐私。我们的原则之一是苹果没有使用我们的用户……

2025年4月14日 00:00

focallens：指令调整启用零射击条件图像表示

FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations

本文在ICLR 2025的野外基础模型的研讨会上接受了本文的理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如，考虑到一个人拿着一束鲜花的人的图像，我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是，大多数现有的图像编码范式代表图像作为固定的通用特征向量，可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在…

2025年4月11日 00:00

mm-ego：朝着以自我为中心的多模式LLMS

MM-Ego: Towards Building Egocentric Multimodal LLMs

这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标，我们在三个方面工作。首先，由于缺乏质量为中心的视频理解的质量检查数据，因此我们将自动生成7m高质量的质量质量样本，用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次，我们通过629个视频和7,026个问题来贡献一个具有挑战性的QA基准，以评估模型的识别能力和…

2025年4月11日 00:00

语言模型比他们所显示的更多：从模型的角度探索幻觉

Language Models Know More Than They Show: Exploring Hallucinations From the Model's Viewpoint

大型语言模型（LLM）通常会产生错误，包括事实上的不准确性，偏见和推理失败，共同称为“幻觉”。最近的研究表明，LLMS的内部状态编码有关其产出真实性的信息，并且可以利用此信息来检测错误。在这项工作中，我们表明LLMS的内部表示与以前所认识的更多有关真实性的信息要多。我们首先发现真实信息集中在特定的令牌上，并利用这一点……

2025年4月10日 00:00

简单的回流：快速流模型的改进技术

Simple ReFlow: Improved Techniques for Fast Flow Models

扩散和流程匹配模型实现了显着的生成性能，但以许多抽样步骤的成本为代价，这会减慢推理并将适用性限制在关键任务中。回流过程可以通过拉直产生轨迹加速采样。但是，反流是一种迭代过程，通常需要对模拟数据进行培训，并导致样品质量降低。为了减轻样品恶化，我们检查了反流的设计空间，并在先前的启发式实践中突出了潜在的陷阱。然后，我们提出了七个训练动态的改进……

2025年4月10日 00:00

LLMS遵循说明时会在内部知道吗？

Do LLMs Know Internally When They Follow Instructions?

指令遵循的内容对于建立具有大语言模型（LLMS）的AI代理至关重要，因为这些模型必须严格遵守用户提供的约束和准则。但是，LLM通常甚至无法遵循简单明了的说明。为了改善跟随指导行为并防止不良产出，需要更深入地了解LLMS内部状态与这些结果的关系。在这项工作中，我们调查了LLMS是否在其表示中编码与指导跟踪成功相关的信息 - 我们“内部知识”的属性。我们的分析…

2025年4月10日 00:00

mirconn：一个设备磁盘居民可更新矢量数据库

MircoNN: An On-device Disk Resident Updatable Vector Database

最近对密集矢量收集的邻居搜索在信息检索，检索增强发电（RAG）和内容排名中具有重要的应用。在许多现有方法和开源实现的情况下，对大型向量收集进行有效的搜索是一个精心研究的问题。但是，大多数最先进的系统通常针对方案，使用大量内存，无法更新的静态矢量收集以及隔离其他搜索标准的最接近的邻居搜索。我们提出微型邻居…

2025年4月10日 00:00

雪貂 - UI 2：掌握跨平台的通用用户界面理解

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

建立用于用户界面（UI）理解的通才模型，这是由于各种基础问题（例如平台多样性，解决方案变化和数据限制）而具有挑战性的。在本文中，我们介绍了雪貂UI 2，这是一种多模式大语言模型（MLLM），旨在跨越包括iPhone，Android，Android，iPad，WebPage和AppleTV在内的广泛平台上的通用UI理解。 Ferret-UI 2以雪貂UI的基础为基础，引入了三个关键创新：对多种平台类型的支持，通过自适应缩放和高级任务的高分辨率感知……

2025年4月10日 00:00

私人查找二阶固定点

Adaptive Batch Size for Privately Finding Second-order Stationary Points

在不同的隐私约束下找到一阶固定点（FOSP）和二阶固定点（SOSP）之间存在差距，而且尚不清楚私人发现SOSP是否比找到FOSP更具挑战性。具体而言，Ganesh等人。（2023）声称可以在α= o〜（1n1/3+（dnϵ）3/7）\ alpha = \ tilde {o}（\ frac {1} {n^{n^{1/3}}}+（\（\） frac {\ sqrt {d}} {n \ epsilon}）^{3/7}）α= o〜（n1/31+（nϵd）3/7），其中nnn是数据集大小，ddd是维度，ϵ \ epsilonϵ是差分隐私参数。

2025年4月10日 00:00

ademamix优化器：更好，更快，较早

The AdEMAMix Optimizer: Better, Faster, Older

基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值（EMA），该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似，随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度，并在经验上证明了该选择如何是最佳选择的：单个EMA不能同时给直接的过去带来高度的重量，而……

2025年4月10日 00:00

通过传输激活来控制语言和扩散模型

Controlling Language and Diffusion Models by Transporting Activations

大型生成模型变得越来越有能力，并且更广泛地部署到电力生产应用程序中，但是让这些模型确切地产生所需的东西仍然具有挑战性。对这些模型的输出的细粒度控制对于满足用户的期望和减轻潜在的滥用非常重要，从而确保了模型的可靠性和安全性。为了解决这些问题，Apple Machine Learning研究人员开发了一种新技术，该技术具有模态性敏捷性，并通过可忽略的计算开销对模型的行为进行了精细的控制，而…

2025年4月10日 00:00

relcon：可穿戴数据的运动基础模型的相对对比度学习

RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data

我们提出了RERCON，这是一种新型的自我监督的相对对比学习方法，用于训练从可穿戴加速度计量学传感器的运动基础模型。首先，对可学习的距离度量进行了训练，以捕获主题相似性和特定于域的语义信息，例如旋转不变性。然后，学到的距离提供了一对加速度计时序列之间语义相似性的测量，我们用来训练我们的基础模型，以对跨时间和主体进行相对关系模型。基础模型接受了87,376的10亿个细分市场的培训…

2025年4月10日 00:00

通过群集以下采样

Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling

专业语言模型（LMS）专注于特定的任务或域通常超过相同大小的通用LMS。但是，预算这些模型所需的专业数据仅适用于大多数任务。在这项工作中，我们改用大型通才训练集建立了专业模型。我们通过有限的特定领域数据的指导调整通才数据的训练分布。我们探索了几种方法，重要性采样脱颖而出。此方法将通才数据集和这些簇中的样本群集成……

2025年4月9日 00:00

tic-lm：时间限制性LLM预处理

TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining

在Neurips 2024的终身基础模型（SCLLFM）讲习班的可伸缩持续学习中接受了本文。LARGE语言模型（LLMS）受过历史网络数据的培训不可避免地会过时。随着新数据的可用，我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集，以用于从114个常见爬网（CC）垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定域的时间分层评估……

2025年4月8日 00:00

LLMS在跟踪指导中估计不确定性是否很好？

Do LLMs Estimate Uncertainty Well in Instruction-Following?

大型语言模型（LLMS）可能是各个域中有价值的个人AI代理，只要它们可以准确地遵循用户说明即可。但是，最近的研究表明，LLMS的指导遵循功能有显着局限性，这引起了人们对其在高风险应用中的可靠性的担忧。准确地估计LLM在遵守指令中的不确定性对于减轻部署风险至关重要。据我们所知，我们介绍了在遵循教学的背景下对LLM的不确定性估计能力的第一个系统评估。我们的研究确定了……