在几项经验研究中,已经报道了随机梯度降低(SGD)中的重尾现象。以前的作品中的实验证据表明,尾巴的重度与SGD的概括行为之间存在很强的相互作用。从理论上讲,为了解决这一经验现象,几项作品做出了强有力的拓扑和统计假设,以将概括误差与沉重的尾巴联系起来。最近,已经证明了新的概括范围,这表明了概括误差和重型尾巴之间的非单调关系,这与报道的经验观察者更相关。尽管可以使用重尾随机微分方程(SDE)对SGD进行建模,但这些界限不需要有条件的拓扑假设,但它们只能应用于简单的二次问题。在本文中,我们在这一研究方面构建,并为更通用的目标功能开发了一般的界限,其中也包括非凸功能。我们的方法是基于重尾sdes及其离散化的范围瓦斯汀稳定性范围,然后我们将其转换为概括界。我们的结果不需要任何非平凡的假设;然而,由于损失功能的一般性,他们对经验观察的启示更加明显。
我们提出了一致性引导的及时学习(COPROMPT),这是一种新的视觉模型微调方法。我们的方法在几次设置的下游任务上进行了微调时,改善了大型基础模型的概括。共同启动的基本思想是在预测可训练和预训练的模型的预测中执行一致性约束,以防止在下游任务上过度适应。此外,我们将以下两个组件引入我们的同意约束中,以进一步提高性能:在两个扰动的输入上执行一致性,并结合了调谐,提示和适配器的两个主导范式。在扰动输入上执行一致性可以进一步正规化一致性约束,从而改善了概括。此外,适配器和提示的集成不仅可以增强下游任务上的性能,而且还提供了提高的输入和输出空间的调谐灵活性。这有助于在几次学习设置中更有效地适应下游任务。实验表明,在一系列评估套件上,副业的表现优于现有方法,包括基本到新颖的概括,域的概括和交叉数据库评估。在概括方面,coprompt改善了零弹药任务的最先进和11个数据集的整体谐波平均值。详细的消融研究表明了共同局限性中每个组件的有效性。我们在https://github.com/shuvenduroy/coprompt上提供代码。
“米饭就是米饭。”这是著名的 AAPI 喜剧演员 Jokoy 在他的脱口秀节目中说他的父亲对亚洲食物的评论。虽然不是 AAPI 血统的人错误地说出这句话的想法很幽默,但它确实有隐藏的含义,而且不是坏事。虽然从表面上看,这似乎是一种过于简单的说法,将所有 AAPI 食物概括为一个巨大的混合盘子,但这句话背后有一些道理,不仅仅是米饭。与食物非常相似;AAPI 社区的文化如此多样和广阔,以至于不熟悉其根源的人不禁会概括其传统,以便于谈论。因为 AAPI 食物从方法、技术和食用方式等方面都具有丰富的历史,所以人们也可以概括为它根深蒂固,讲述了我们是谁以及我们作为一个民族来自哪里的故事。
RKHM中监督学习的重要应用是其输入和输出是图像的任务。如果所提出的内核具有特定的参数,则产品结构是卷积,与傅立叶成分的点型相对应。通过将C ∗ - 代数扩展到更大的代数,我们可以享受比卷积更多的一般操作。这使我们能够通过在傅立叶组件之间进行交互来有效地分析图像数据。关于概括结合,我们通过Rademacher复合物理论得出了与RKHS和VVRKHS相同的结合类型。这是我们所知,这是RKHM假设类别的第一个概括。关于与现有方法的联系,我们表明,使用框架,我们可以重建现有方法,例如卷积神经网络(Lecun等,1998)和卷积内核(Mairal等,2014),并进一步概括它们。这一事实意味着我们框架的表示能力超出了现有方法。
机器学习算法在我们的社会中越来越普遍。随着这些算法的快速扩展,当研究算法应用于新数据时,就其可靠性和概括性能出现了许多问题。因此,对最广泛使用的算法进行了深入的数学分析,在当前的研究中起着越来越重要的作用。新工具以快速的速度出现,有助于研究为什么这些算法概括地概括了。这项研究属于统计学习理论的主要领域[8]。为了获得相关的统计保证,已经开发了许多方法,例如统一稳定性的概念,假设空间的复杂度度量或Pac-Bayesian理论[7,5]。Pac-Bayesian方法最近在发现新颖的概括范围中导致了连续的突破,直到现在,这些范围才能使用替代理论产生。它也已用于得出新算法以最大程度地减少此类界限(称为自我限制算法[9,第7章])。
摘要 - 这项研究通过探索着重于定义概括限制和确保收敛性,深入研究元增强学习(meta rl)。通过采用一种方法,本文介绍了一个创新的理论框架,以精心评估元rl算法的有效性和性能。我们提出了概括限制的解释,以测量这些算法能够适应学习任务的同时保持一致的结果。我们的分析探讨了影响元素设计和任务复杂性之间关系的元素适应性的因素。另外,我们通过证明条件确保了荟萃策略可以融合解决方案,从而建立了融合。我们研究了跨场景中元算法的收敛行为,从而对其长期表现背后的驱动力有了全面的理解。此探索涵盖了有关这些算法的能力的融合和实时效率。索引术语 - meta-formentions学习,理论分析,概括约束,收敛保证
本文研究了最小描述长度(MDL)与神经网络中Grokking现象之间的关系,提供了有关突然泛化的信息理论观点。Grokking,在扩展培训后突然概括了模型,它挑战了神经网络学习动态的常规理解。我们假设由MDL量化的内部表示形式的组合是此过程的关键因素。为了测试这一点,我们引入了一种基于权重修剪的新型MDL估计技术,并将其应用于不同的数据集,包括模块化算术和置换任务。由于神经网络的复杂,高维质以及缺乏量化内部代表性的明确指标,这种方法是具有挑战性的。我们的实验揭示了MDL还原与改善的概括之间存在很强的相关性,而MDL过渡点通常在或与Grokking事件相吻合。我们观察到Grokking与非怪异场景中不同的MDL演化模式,其特征是快速减少MDL,然后在前者中持续概括。这些发现提供了有关Grokking信息理论基础的见解,并建议在训练过程中进行MDL监测可以预测即将泛化。我们的工作有助于更深入地了解神经网络中的学习动态,并为预测机器学习模型中的概括提供了新的工具。
•“通过在其藏品中解锁新的访问,发现和理解的新维度,增强了图书馆和档案的能力为公众和研究社区服务。” •支持公平(可访问,可访问,可互操作和可重复使用的)原理和可重复的计算研究(RCR)•原型参与方法可能具有更一般性的应用(更广泛的AI社区可以从图书馆/存档实践中学习)•有助于对概括利益相关者参与的本体使用的概括•