大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式,包括文本和语音,每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性,为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集,但它们难以跟上快速变化的用户信息需求。我们提出……
许多医疗保健应用本质上是多模态的,涉及多种生理信号。随着这些信号的传感器变得越来越普遍,改进多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是一条有希望的成功途径。然而,在医疗保健领域开发基础模型的方法仍处于早期探索阶段,鉴于生理信号的多样性,目前尚不清楚哪种预训练策略最有效。这部分是由于多模态健康数据面临的挑战:获取许多患者的数据是……
Smart Audit System Empowered by LLM
制造质量审核对于确保大规模生产环境中的高产品标准至关重要。然而,传统的审计流程是劳动密集型的,严重依赖人类的专业知识,这对在复杂的全球供应链中保持透明度、问责制和持续改进构成了挑战。为了应对这些挑战,我们提出了一个由大型语言模型 (LLM) 赋能的智能审计系统。我们的方法引入了三个关键创新:一个简化审计程序和优化资源分配的动态风险评估模型;一个……
Divide-or-Conquer? Which Part Should You Distill Your LLM?
最近的方法表明,当鼓励大型语言模型 (LLM) 首先解决主任务的子任务时,它们可以更好地解决推理任务。在本文中,我们设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并表明该策略能够胜过单阶段解决方案。此外,我们假设与问题解决相比,分解应该更容易提炼成较小的模型,因为后者需要大量的领域知识,而前者只需要……
Combining Machine Learning and Homomorphic Encryption in the Apple Ecosystem
在 Apple,我们认为隐私是一项基本人权。我们保护用户隐私的工作遵循一系列隐私原则,其中一项原则是优先使用设备上的处理。通过在用户设备上本地执行计算,我们有助于最大限度地减少与 Apple 或其他实体共享的数据量。当然,用户可以请求由机器学习 (ML) 提供支持的设备体验,这些体验可以通过查找服务器上托管的全局知识来丰富。为了在提供这些体验的同时坚持我们对隐私的承诺,我们实施了…
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下,可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而,在实践中,少数几个公开可用的偏好数据集通常用于训练奖励模型,以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入,但目前还没有对它们进行测量和比较的努力。在本文中,我们系统地研究了…
MUSCLE: A Model Update Strategy for Compatible LLM Evolution
大型语言模型 (LLM) 会定期更新以提高性能,通常是通过更改数据或架构来实现的。在更新过程中,开发人员通常优先考虑改进整体性能指标,而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型,这可能会导致不满,尤其是当……
CtrlSynth: Controllable Image-Text Synthesis for Data-Efficient Multimodal Learning
预训练稳健的视觉或多模态基础模型(例如 CLIP)依赖于大规模数据集,这些数据集可能存在噪声、可能错位且具有长尾分布。先前的研究已显示出通过生成合成样本来扩充数据集的良好结果。但是,它们仅支持特定领域的临时用例(例如,仅支持图像或文本,但不能同时支持两者),并且由于缺乏对合成过程的细粒度控制,数据多样性有限。在本文中,我们设计了一个可控的图像文本合成管道 CtrlSynth,用于数据高效且稳健的……
Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement
对个性化和隐私设备应用程序的不断增长的需求凸显了无源无监督域自适应 (SFDA) 方法的重要性,尤其是对于时间序列数据,其中个体差异会产生较大的域偏移。随着传感器嵌入式移动设备变得无处不在,优化 SFDA 方法以提高时间序列环境中的参数利用率和数据样本效率变得至关重要。时间序列中的个性化对于适应个人用户的独特模式和行为至关重要,从而提高预测的相关性和准确性。在此...
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......
Scalable Private Search with Wally
本文介绍了 Wally,这是一个支持对大型数据库进行高效语义和关键字搜索查询的隐私搜索系统。当有足够多的客户端进行查询时,Wally 的性能明显优于以前的系统。在以前的隐私搜索系统中,对于每个客户端查询,服务器必须对每个数据库条目执行至少一次昂贵的加密操作。因此,性能会随着数据库中条目的数量而成比例下降。在 Wally 中,我们消除了这一限制。具体来说,对于每个查询,服务器都会执行加密……
CAMPHOR: Collaborative Agents for Multi-Input Planning and High-Order Reasoning On Device
虽然服务器端大型语言模型 (LLM) 在工具集成和复杂推理方面表现出色,但直接在设备上部署小型语言模型 (SLM) 带来了改善延迟和隐私的机会,但也带来了准确性和内存方面的独特挑战。我们推出了 CAMPHOR,这是一种创新的设备 SLM 多代理框架,旨在处理多个用户输入并在本地推理个人背景,确保隐私得到维护。 CAMPHOR 采用分层架构,其中高阶推理代理分解复杂任务并协调专家……
Generalizable Autoregressive Modeling of Time Series Through Functional Narratives
时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...
Progressive Entropic Optimal Transport Solvers
最优传输 (OT) 通过提供理论和计算工具来重新调整数据集,对机器学习产生了深远的影响。在这种情况下,给定 Rd\mathbb{R}^dRd 中大小为 nnn 和 mmm 的两个大点云,熵 OT (EOT) 求解器已成为解决 Kantorovich 问题并输出 n×mn\times mn×m 耦合矩阵或解决 Monge 问题并学习矢量值前推图的最可靠工具。尽管 EOT 耦合/映射的稳健性使其成为实际应用中的首选,但由于小问题,EOT 求解器仍然难以调整……
Vision-Based Hand Gesture Customization from a Single Demonstration
手势识别正成为一种更普遍的人机交互模式,尤其是随着摄像头在日常设备中的普及。尽管该领域不断取得进展,但手势定制往往未得到充分探索。定制至关重要,因为它使用户能够定义和演示更自然、更难忘、更易于理解的手势。然而,定制需要有效利用用户提供的数据。我们介绍了一种方法,使用户能够通过一次演示使用单目摄像头轻松设计定制手势。我们采用变压器和……
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……
When is Multicalibration Post-Processing Necessary?
校准是预测因子的一个经过充分研究的属性,可保证有意义的不确定性估计。多重校准是一个相关概念——源于算法公平性——它要求在可能复杂且重叠的受保护亚群集合(例如按种族、种族或收入定义的群体)上同时校准预测因子。我们进行了首次全面研究,评估了从简单决策树到 90 的模型在广泛的表格、图像和语言数据集上的多重校准后处理的实用性……
从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……