详细内容或原文请订阅后点击阅览
新方法可以提高LLM培训效率
通过利用空闲计算时间,研究人员可以在保持准确性的同时将模型训练速度提高一倍。
来源:MIT新闻 - 人工智能推理大型语言模型 (LLM) 旨在通过将复杂问题分解为一系列较小的步骤来解决这些问题。这些强大的模型特别擅长执行高级编程和多步骤规划等具有挑战性的任务。
但由于训练过程效率低下,开发推理模型需要大量的计算和能量。当一些高功率处理器持续处理复杂的查询时,组中的其他处理器则闲置。
来自麻省理工学院和其他地方的研究人员找到了一种利用这种计算停机时间来有效加速推理模型训练的方法。
他们的新方法自动训练一个更小、更快的模型来预测更大的推理 LLM 的输出,并由更大的模型进行验证。这减少了推理模型必须完成的工作量,从而加速了训练过程。
该系统的关键在于它能够自适应地训练和部署较小的模型,因此它仅在某些处理器空闲时才会启动。通过利用原本会被浪费的计算资源,它可以加速训练,而不会产生额外的开销。
当在多个推理法学硕士上进行测试时,该方法使训练速度提高了一倍,同时保持了准确性。这可以降低开发高级法学硕士的成本并提高能源效率,以用于预测金融趋势或检测电网风险等应用。
“人们希望模型能够处理更复杂的任务。但如果这是模型开发的目标,那么我们需要优先考虑效率。我们找到了这个问题的无损解决方案,然后开发了一个全栈系统,可以在实践中实现相当显着的加速,”麻省理工学院博士后、该技术论文的联合主要作者 Qinghao Hu 说道。
训练瓶颈
开发人员希望推理法学硕士能够识别并纠正其批判性思维过程中的错误。这种能力使他们能够胜任复杂的查询,而这些查询可能会导致标准的法学硕士失败。
