Apple机器学习研究领域信息情报检索---XiaoMi-AI

2025年6月5日 00:00

改善视力语言模型的思想链推理

Improve Vision Language Model Chain-of-thought Reasoning

视觉语言模型（VLMS）中的思考链（COT）推理对于改善无法释放性和可信赖性至关重要。但是，当前的培训食谱通常依赖于以统一理由为主导的ondatasets。在这项工作中，我们表明对简短答案的VLM进行训练会导致较差的推理任务，要求详细解释。为了解决这一局限性，我们提出了一个两阶段的培训后策略，该术时扩展了简短的答案数据以增强COT推理的用法。首先，用……

2025年6月5日 00:00

超越文本压缩：评估跨量表的引物

Beyond Text Compression: Evaluating Tokenizers Across Scales

令牌设计师的设计显着影响语言模型性能，但是评估令牌质量仍然具有挑战性。尽管文本压缩已成为一种常见的内在度量，但最近的工作质疑其作为质量指标的可靠性。 We investigate whether evaluating tokenizers on smaller models (350M parameters) reliably predicts their impact at larger scales (2.7B parameters).Through experiments with established tokenizers from widely-adopted language m

2025年6月4日 00:00

分析语言相似性对跨语言转移的影响：任务和输入表示

Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Input Representations Matter

跨语性转移是一种在低资源环境中增加NLP任务的培训数据量的流行方法。但是，确定包含哪些跨语性数据的最佳策略尚不清楚。先前的研究通常集中于一些语言家庭或一项任务的一小部分语言。这些发现如何扩展到多种多样的语言和任务仍然是一个悬而未决的问题。在这项工作中，我们通过分析来自各种语言家庭的263种语言的跨语化转移来为这个问题做出了贡献。此外，我们包括三个流行的NLP任务…

2025年6月4日 00:00

IEEE/CVF计算机视觉和模式识别会议（CVPR）2025

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025

苹果公司将赞助IEEE/CVF计算机视觉和模式识别会议（CVPR），该会议将于2025年6月11日至6月15日在田纳西州的纳什维尔举行。 CVPR是一年一度的计算机愿景活动，包括主会议，几个共同确定的研讨会和短期课程。以下是我们赞助的研讨会和活动的时间表。

2025年6月3日 00:00

蒸馏缩放法律

Distillation Scaling Laws

我们提出了一项蒸馏缩放法，该法律根据计算预算及其在学生和教师之间的分配来估算蒸馏模型性能。我们的发现通过为教师和学生启用计算最佳分配，以最大程度地提高学生表现，从而减轻与大规模蒸馏有关的风险。我们为两个关键情况提供了最佳的蒸馏食谱：当老师已经存在以及老师需要培训时。在涉及许多学生或现有教师的设置中，蒸馏的表现优于监督到计算水平的学习……

2025年6月3日 00:00

提示耳语以改进逐字记录和端到端的错误检测

Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection

*相同的贡献识别错误（即，在大声朗读时犯的错误）通常是通过将自动语音识别（ASR）转录与目标阅读文本进行比较而大声接触的。但是，当ASR不准确转录逐字化的语音时，事后方法的性能很差。为了改善当前阅读错误注释的方法，我们提出了一种新颖的端到端体系结构，该结构通过提示结合了目标阅读文本，并接受了改进的逐字记录和直接的错误检测。我们的贡献包括：首先证明…

2025年5月30日 00:00

带有显式3D建模的世界一致的视频扩散

World-Consistent Video Diffusion With Explicit 3D Modeling

作为主导视觉内容生成的扩散模型，已经努力使这些模型适应多视图图像生成以创建3D内容。传统上，这些方法通过仅产生RGB框架来隐式学习3D一致性，这可以导致培训中的工件和效率低下。相比之下，我们建议在RGB框架并肩生成归一化坐标空间（NCS）框架。 NCS框架捕获每个像素的全局坐标，为3D一致性提供了强大的像素对应关系和明确的监督。另外，通过共同估计RGB和NCS框架…

2025年5月30日 00:00

speakstream：带有交织数据的流式传输到语音

SpeakStream: Streaming Text-to-Speech with Interleaved Data

With the increasing integration of speech front-ends and large language models (LLM),there is a need to explore architectures that integrate these modalities.While end-to-end models have been explored extensively, cascaded models that stream outputs from LLMs to TTS seem to be oddly under-explored,

2025年5月28日 00:00

基金会模型隐藏表示从听诊估算的心率估计

Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

听诊，尤其是心脏声音，是一种提供必不可少的生命体征信息的无侵蚀性技术。非常肯定地，已经提出了自我监督的声学代表模型（FMS），以提供基于洞察力的奥斯科群体基于Acouttics的生命体征。但是，已经探索了这些预训练的FM表示中的听诊的程度。在这项工作中，使用公开可用的Phonocardioram（PCG）数据集和心率（HR）估计模型，我们对六个声学代表FMS进行了层次调查：Hubert：hubert，wav2vec2…

2025年5月28日 00:00

通过加强学习的大语模型的交错推理

Interleaved Reasoning for Large Language Models via Reinforcement Learning

长期思考链（COT）显着增强了大型语言模型（LLM）的推理能力。但是，广泛的推理痕迹导致效率低下和增加时间（TTFT）的增加。我们提出了一种新颖的培训范式，该训练范式使用加固学习（RL）指导推理LLMS以交织和回答多跳的问题。我们观察到，模型本质上具有执行交织的推理的能力，可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励，以激励正确的中间步骤……

2025年5月27日 00:00

剪辑：一种简单有效的Experts剪辑培训配方，稀疏升级

CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling

混合物（MOE）模型对于在控制推理成本的同时，对于缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中，可以提高性能，但众所周知，培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑（剪辑），这是一种有效的替代培训策略，可将预先训练的密集夹模型转换为稀疏的MoE体系结构。通过对各种环境和辅助损失进行广泛的实验，我们证明了剪辑可显着降低训练的复杂性和成本。值得注意的是，我们稀疏的剪辑B/16…

2025年5月22日 00:00

spd：高语言模型的有效张量并行性的同步点下降

SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models

随着Largelanguage模型（LLM）规模的快速扩展，使跨多个计算单元的有效分布推理变得越来越重要。但是，来自流行的分布式促进技术（例如张量并行主义）的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此，我们引入了一种新颖的技术，同步点降（SPD），以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明，我们首先提出了一个……

2025年5月22日 00:00

是什么使良好的立体图像？

What Makes for a Good Stereoscopic Image?

本文在CV4Metaverse研讨会上接受了CVPR2025。在虚拟现实（VR）头戴式耳机中的快速进步，有效地测量了立体体验（SQOE）对于提供沉浸式和舒适的3D体验至关重要。但是，大多数现有的立体声指标都集中在观看体验的孤立方面，例如视觉不适或图像质量，并且传统上面临着数据限制。为了解决这些差距，我们提出范围（立体内容偏好评估），这是一个由真实和合成的立体图像组成的新数据集……

2025年5月21日 00:00

人类政策〜人类政策

Humanoid Policy ~ Human Policy

针对人形机器人的培训操纵政策会涉及数据，从而增强了其跨任务和平台的稳健性和泛化。但是，仅从机器人示范中学习是劳动密集型的，需要昂贵的远程操作数据收获，这很难扩展。本文研究了更可扩展的数据源，即中心的人类示范，以作为机器人学习的跨体型培训数据。我们从数据和建模观点来减轻人形生物与人类之间的实施差距。我们收集了一个以egipentric任务为导向的数据集（PH2D）…

2025年5月21日 00:00

cubify任何东西：缩放室内3D对象检测

Cubify Anything: Scaling Indoor 3D Object Detection

我们考虑了从商品手持设备中获取的单个RGB（-d）帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先，我们确定现有数据集对对象的规模，准确性和多样性有重大限制。结果，我们介绍了Cubify-任何1M（CA-1M）数据集，该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象，并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来，我们建立Cubify Transformer…

2025年5月16日 00:00

大型语言模型有英语口音吗？评估和改善多语言LLMS的自然性

Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs

当前的大型语言模型（LLMS）主要是用英语设计为主要语言的，即使是多语言的少数语言也倾向于表现出强烈的以英语为中心的偏见。就像在学习第二语言时可能会产生尴尬表情的演讲者一样，LLM通常会以非英语语言产生不自然的输出，反映了词汇和语法中以英语为中心的模式。尽管这个问题很重要，但多语言LLM输出的自然性受到了有限的关注。在本文中，我们通过引入新颖的自动……

2025年5月12日 00:00

StreamBridge：将您的离线视频大型语言模型变成主动的流媒体

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

我们提出了StreamBridge，这是一个简单而有效的框架，无缝地将离线视频插件转换为具有流能力的模型。它解决了将现有模型调整为在线方案的两个基本挑战：（1）有限的实时理解能力有限，以及（2）缺乏主动的响应机制。具体而言，StreamBridge结合了（1）一个内存缓冲区，并结合了一个圆形截止的压缩策略，支持长篇小说多转变的交互，以及（2）一个可以毫不费力地集成到现有的…

2025年5月9日 00:00

matrix3d：大型摄影测量模型多合一

Matrix3D: Large Photogrammetry Model All-in-One

我们提出了Matrix3d，这是一种执行多个摄影测量子任务的统一模型，包括使用相同的模型使用姿势估计，深度预测和新型视图合成。 MATRIX3D利用多模式扩散变压器（DIT）来整合几种模态的转换，例如图像，相机参数和深度图。 MATRIX3D大规模多模式训练的关键在于结合面具学习策略。即使有部分完整的数据，例如图像置态和图像深度对的双模式数据也可以实现全模式模型训练……