什么是测试时间训练

在此博客中揭开测试时间训练 (TTT) 的强大功能!了解这种尖端技术如何帮助 AI 模型在推理过程中进行适应,从而提高具有挑战性的任务的性能。探索实际示例、实施技巧和见解,将 TTT 集成到您的机器学习工作流程中。

来源:Nanonets
超专业化任何通用模型
超专业化任何通用模型
超专业化任何通用模型

简介

反向传播一直是推动深度学习革命的引擎。我们取得了长足的进步,例如:

    新的层,如卷积神经网络、循环神经网络、Transformers。新的训练范式,如微调、迁移学习、自监督学习、对比学习和强化学习。新的优化器、正则化器、增强、损失函数、框架等等......
  • 新的层,如卷积神经网络、循环神经网络、Transformers。
  • 新的训练范式,如微调、迁移学习、自监督学习、对比学习和强化学习。
  • 新的优化器、正则化器、增强、损失函数、框架等等……
  • 然而,五年前创建的抽象和推理语料库 (ARC) 数据集经受住了众多架构的考验,却从未动摇。它仍然是最难的数据集之一,即使是最好的模型也无法超越人类水平的准确度。这表明真正的 AGI 仍然遥不可及。

    上周,一篇新论文“抽象推理测试时间训练的惊人效果”推动了一种相对新颖的技术,在 ARC 数据集上达到了新的最先进准确度水平,这让深度学习社区兴奋不已,就像 12 年前的 AlexNet 一样。

    TTT 是五年前发明的,训练发生在很少的样本上——通常是一两个——类似于测试数据点。该模型可以根据这些示例更新其参数,使其仅针对这些数据点进行超适应。

    TTT 类似于将全科医生转变为外科医生,而外科医生现在只专注于心脏瓣膜置换术。

    什么是测试时间训练?

  • 克隆(通用)模型,
  • 线性回归中的 TTT
    线性回归中的 TTT