摘要:作为基础模型(FMS)量表,他们面临着数据瓶颈,高质量的互联网数据的增长无法跟上他们的培训需求。这已经是文本数据最明显的,在诸如体现智能之类的领域中一直是一个一致的问题,并有望很快施加其他方式。自我改进,一种范式,其中模型生成和训练了从相同或其他模型生成的合成数据,它提供了有希望的解决方案。这种范式与依赖于人类数据的监督学习和依赖于外部奖励的强化学习(RL)不同。自我完善框架需要模型来自我策划的培训数据,通常会使用不完美的学习验证者和独特的挑战。本研讨会将探索用于自我完善的算法,涵盖诸如合成数据,多模式和多模式系统,弱至较大的概括,推理时间自学和理论限制等主题。
主要关键词