大型语言模型彻底改变了人工智能和机器学习。在大规模数据集上训练的这些模型可以生成类似人类的文本,代码,并且(显然)从事复杂的推理任务。这些突破的核心是所谓的经验缩放定律,它显示了模型能力如何随着模型大小和数据大小的增加而预测的。这种可预测性激发了巨大的工业努力来建立和部署非常大型的模型。该课程将通过对Llama 3技术报告的深入研究(Grattafiori等,2024)的深入研究来理解大型模型培训的实际方面。我们将介绍从培训前和培训后的整个管道到评估和部署。学生将有望介绍一篇论文,准备代码笔记本,并完成有关他们选择的主题的Finnal项目。虽然读数在很大程度上是应用或方法论上的,但理论上的学生欢迎将他们的项目集中在与大型模型有关的理论主题上。
主要关键词