Improve Vision Language Model Chain-of-thought Reasoning
视觉语言模型(VLMS)中的思考链(COT)推理对于改善无法释放性和可信赖性至关重要。但是,当前的培训食谱通常依赖于以统一理由为主导的ondatasets。在这项工作中,我们表明对简短答案的VLM进行训练会导致较差的推理任务,要求详细解释。为了解决这一局限性,我们提出了一个两阶段的培训后策略,该术时扩展了简短的答案数据以增强COT推理的用法。首先,用……
Beyond Text Compression: Evaluating Tokenizers Across Scales
令牌设计师的设计显着影响语言模型性能,但是评估令牌质量仍然具有挑战性。尽管文本压缩已成为一种常见的内在度量,但最近的工作质疑其作为质量指标的可靠性。 We investigate whether evaluating tokenizers on smaller models (350M parameters) reliably predicts their impact at larger scales (2.7B parameters).Through experiments with established tokenizers from widely-adopted language m
知觉语音质量维度描述了非典型语音和其他语音调制的关键特征。在这里,我们开发和评估了七个语音和语音维度的语音质量模型(可理解性,不精确的辅音,苛刻的声音,自然,单片,莫诺维奇和呼吸)。对公共语音可访问性(SAP)项目数据集进行了培训,其中有434位扬声器的11,184个样本,使用冷冻预培训模型的嵌入作为功能。我们发现,我们的探针在语音引起的探针既有强大的表现又有强烈的概括……
最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象提供见解。
跨语性转移是一种在低资源环境中增加NLP任务的培训数据量的流行方法。但是,确定包含哪些跨语性数据的最佳策略尚不清楚。先前的研究通常集中于一些语言家庭或一项任务的一小部分语言。这些发现如何扩展到多种多样的语言和任务仍然是一个悬而未决的问题。在这项工作中,我们通过分析来自各种语言家庭的263种语言的跨语化转移来为这个问题做出了贡献。此外,我们包括三个流行的NLP任务…
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025
苹果公司将赞助IEEE/CVF计算机视觉和模式识别会议(CVPR),该会议将于2025年6月11日至6月15日在田纳西州的纳什维尔举行。 CVPR是一年一度的计算机愿景活动,包括主会议,几个共同确定的研讨会和短期课程。以下是我们赞助的研讨会和活动的时间表。
我们提出了一项蒸馏缩放法,该法律根据计算预算及其在学生和教师之间的分配来估算蒸馏模型性能。我们的发现通过为教师和学生启用计算最佳分配,以最大程度地提高学生表现,从而减轻与大规模蒸馏有关的风险。我们为两个关键情况提供了最佳的蒸馏食谱:当老师已经存在以及老师需要培训时。在涉及许多学生或现有教师的设置中,蒸馏的表现优于监督到计算水平的学习……
Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection
*相同的贡献识别错误(即,在大声朗读时犯的错误)通常是通过将自动语音识别(ASR)转录与目标阅读文本进行比较而大声接触的。但是,当ASR不准确转录逐字化的语音时,事后方法的性能很差。为了改善当前阅读错误注释的方法,我们提出了一种新颖的端到端体系结构,该结构通过提示结合了目标阅读文本,并接受了改进的逐字记录和直接的错误检测。我们的贡献包括:首先证明…
World-Consistent Video Diffusion With Explicit 3D Modeling
作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。另外,通过共同估计RGB和NCS框架…
SpeakStream: Streaming Text-to-Speech with Interleaved Data
With the increasing integration of speech front-ends and large language models (LLM),there is a need to explore architectures that integrate these modalities.While end-to-end models have been explored extensively, cascaded models that stream outputs from LLMs to TTS seem to be oddly under-explored,
Interleaved Reasoning for Large Language Models via Reinforcement Learning
长期思考链(COT)显着增强了大型语言模型(LLM)的推理能力。但是,广泛的推理痕迹导致效率低下和增加时间(TTFT)的增加。我们提出了一种新颖的培训范式,该训练范式使用加固学习(RL)指导推理LLMS以交织和回答多跳的问题。我们观察到,模型本质上具有执行交织的推理的能力,可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励,以激励正确的中间步骤……
Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation
听诊,尤其是心脏声音,是一种提供必不可少的生命体征信息的无侵蚀性技术。非常肯定地,已经提出了自我监督的声学代表模型(FMS),以提供基于洞察力的奥斯科群体基于Acouttics的生命体征。但是,已经探索了这些预训练的FM表示中的听诊的程度。在这项工作中,使用公开可用的Phonocardioram(PCG)数据集和心率(HR)估计模型,我们对六个声学代表FMS进行了层次调查:Hubert:hubert,wav2vec2…
CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling
混合物(MOE)模型对于在控制推理成本的同时,对于缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中,可以提高性能,但众所周知,培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑(剪辑),这是一种有效的替代培训策略,可将预先训练的密集夹模型转换为稀疏的MoE体系结构。通过对各种环境和辅助损失进行广泛的实验,我们证明了剪辑可显着降低训练的复杂性和成本。值得注意的是,我们稀疏的剪辑B/16…
SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models
随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个……
What Makes for a Good Stereoscopic Image?
本文在CV4Metaverse研讨会上接受了CVPR2025。在虚拟现实(VR)头戴式耳机中的快速进步,有效地测量了立体体验(SQOE)对于提供沉浸式和舒适的3D体验至关重要。但是,大多数现有的立体声指标都集中在观看体验的孤立方面,例如视觉不适或图像质量,并且传统上面临着数据限制。为了解决这些差距,我们提出范围(立体内容偏好评估),这是一个由真实和合成的立体图像组成的新数据集……
Cubify Anything: Scaling Indoor 3D Object Detection
我们考虑了从商品手持设备中获取的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制。结果,我们介绍了Cubify-任何1M(CA-1M)数据集,该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象,并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来,我们建立Cubify Transformer…
Humanoid Policy ~ Human Policy
针对人形机器人的培训操纵政策会涉及数据,从而增强了其跨任务和平台的稳健性和泛化。但是,仅从机器人示范中学习是劳动密集型的,需要昂贵的远程操作数据收获,这很难扩展。本文研究了更可扩展的数据源,即中心的人类示范,以作为机器人学习的跨体型培训数据。我们从数据和建模观点来减轻人形生物与人类之间的实施差距。我们收集了一个以egipentric任务为导向的数据集(PH2D)…
当前的大型语言模型(LLMS)主要是用英语设计为主要语言的,即使是多语言的少数语言也倾向于表现出强烈的以英语为中心的偏见。就像在学习第二语言时可能会产生尴尬表情的演讲者一样,LLM通常会以非英语语言产生不自然的输出,反映了词汇和语法中以英语为中心的模式。尽管这个问题很重要,但多语言LLM输出的自然性受到了有限的关注。在本文中,我们通过引入新颖的自动……