ML Metamorphosis: Chaining ML Models for Optimized Results
知识提炼、模型压缩和规则提取的通用原则图 1。此图像和其他图像均由作者在 recraft.ai 的帮助下创建机器学习 (ML) 模型训练通常遵循熟悉的流程:从数据收集开始,清理和准备数据,然后进行模型拟合。但如果我们可以进一步推进这个过程会怎样?正如一些昆虫在成熟之前会经历剧烈的变化一样,ML 模型也可以以类似的方式进化(参见 Hinton 等人 [1])——我称之为 ML 蜕变。此过程涉及将不同的模型链接在一起,从而产生最终模型,该模型的质量明显优于从头开始直接训练的模型。其工作原理如下:从一些初始知识(数据 1)开始。在此数据上训练 ML 模型(模型 A,例如神经网络)。使用模型 A 生成
Speculative Streaming: Fast LLM Inference Without Auxiliary Models
推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。