详细内容或原文请订阅后点击阅览
研究可能导致LLM在复杂推理方面更好
研究人员开发了一种方法,使大型语言模型更适合诸如战略计划或过程优化之类的具有挑战性的任务。
来源:MIT新闻 - 人工智能对于所有令人印象深刻的能力,大型语言模型(LLM)通常会在挑战需要复杂的推理技能的新任务时就缺乏。
虽然会计师事务所的LLM可能会在总结财务报告中表现出色,但如果负责预测市场趋势或确定欺诈性交易,则同一模型可能会意外失败。
为了使LLMS更适应能力,麻省理工学院研究人员研究了如何在战略上部署某种培训技术,以提高模型在不熟悉,困难的问题上的表现。
他们表明,测试时间培训是一种涉及在部署过程中暂时更新某些模型内部工作的方法,可以提高准确性的六倍。研究人员开发了一个框架,用于实施测试时间培训策略,该策略使用新任务的示例来最大化这些收益。
他们的工作可以提高模型的灵活性,从而使现成的LLM适应需要计划或抽象的复杂任务。这可能会导致LLM在许多需要逻辑扣除的应用程序中更准确,从医学诊断到供应链管理。
“真正的学习 - 我们在测试时间培训中所做的事情 - 这些模型在发货后就无法自行完成。他们将无法获得新的技能或在一项任务上变得更好。但是,我们已经表明,如果您将模型稍微推动一点点进行实际学习,您会发现巨大的表现会发生。
纸解决硬域
llm用户经常尝试使用称为“文本学习”技术在新任务上提高模型的性能。他们为模型提供了一些新任务的示例,作为指导模型输出的文本提示。
但是,内在学习并不总是针对需要逻辑和推理的问题。
开发新技能
这项工作部分由MIT-IBM Watson AI实验室和国家科学基金会支持。