培训大语言模型(LLM)已成为人工智能进展的核心,数据集,培训前和训练后方法在其性能和可扩展性方面扮演着互补的角色。此博士学位课程探讨了训练这些模型的关键阶段,并强调了数据对下游任务中模型性能的影响。学生将通过全面研究数据集构建,优化技术,缩放定律,培训前策略,合成数据生成以及培训后的改进(例如,进行微调和对齐方式),通过全面的研究构建LLM的理论和实践。该课程将结合理论指导与动手实验相结合。学生将洞悉:##创建高质量,多样化和有效数据集的原则和方法。##¢优化策略,用于大规模模型培训,包括计算效率。##经验缩放定律及其对模型大小和数据集大小的影响。#¢利用合成数据及其在改善概括和鲁棒性中的作用。##训练技术,例如人类反馈(RLHF)的增强学习以及与期望的结果结合。
符号任务计划是一种广泛使用的方法来强制机器人自主权,因为它易于理解和部署工程机器人体系结构。然而,符号任务计划的技术很难在现实世界中进行扩展,高度动态的人类机器人协作场景,因为在计划域中的性能不佳,在计划领域的效果不佳,在这种情况下可能不会立即进行效应,或者由于机器人工作空间中的情况而发生了频繁的重新计划。长期,计划长度和计划时间的计划有效性可能会阻碍机器人的效率,并对整体人类机器人互动的影响产生负面影响。我们提出了一个框架,我们将其称为Teriyaki,旨在弥合符号任务计划和机器学习方法之间的差距。基本原理是培训大型语言模型(LLM),即GPT-3,将与计划域定义语言(PDDL)兼容的神经成像任务计划师,然后利用其生成能力克服象征性任务计划固有的许多限制。潜在的好处包括(i)在计划领域的复杂性增加的情况下,可以更好地可伸缩性,因为LLMS的响应时间与输入和输出的总长度线性扩展,而不是超线性,而不是像符号任务计划者那样超线性,而在符号任务计划中,以及(ii)的行动,而不是依次实现行动,而不是依次进行动作,那么就可以实现行动,而不是依次进行动作,而不是依次实现。为了使整个计划可用,这又可以同时进行计划和执行。在过去的一年中,研究界致力于评估LLMS的整体认知能力,并取得了替代成功。取而代之的是,使用Teriyaki,我们的目标是提供与特定计划域中传统规划师相当的整体计划绩效,同时利用其他指标的LLMS功能,特别是与其短期和中期生成能力相关的指标,这些能力用于建立一个构建观察性预测性计划模型。选定域中的初步结果表明我们的方法可以:(i)在1,000个样本的测试数据集中解决95.5%的问题; (ii)与传统象征计划者相比,生产计划短多达13.5%; (iii)将计划可用性的总体等待时间减少高达61.4%。
i NLP 1 1简介的基本算法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。3 2正则表达式,令牌化,编辑距离。。。。。。。。。。。。。。。4 3 n克语言模型。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。32 4天真的贝叶斯,文本分类和情感。。。。。。。。。。。。。。。。。56 5逻辑回归。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。77 6矢量语义和嵌入。。。。。。。。。。。。。。。。。。。。。。。。。。。。。101 7神经网络。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。132 8 RNN和LSTMS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。158 9变压器。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。184 10大语言模型。。。。。。。。。。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>203 11蒙版语言模型。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>223 12模型对齐,提示和内在学习。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>242 div>
开发可以理解和遵循语言指示的代理商对于有效且可靠的人类协作至关重要。最近的方法使用不经常的环境奖励的强化学习来训练这些代理,这给环境设计师带来了重大负担,以创建语言条件条件的奖励功能。随着环境和指示的复杂性,制作这种奖励功能变得越来越不切实际。为了解决这个问题,我们介绍了V-TIFA,这是一种新型方法,该方法通过利用Vision语言模型(VLMS)的反馈来训练跟随剂。V-TIFA的核心思想是查询VLM,根据语言的结构对整个轨迹进行评分,并使用结果评分直接训练代理。与先前的VLM奖励生成方法不同,V-TIFA不需要手动制作的任务规范,使代理商能够从各种自然语言教学中学习。在体现环境中进行的广泛实验表明,在相同条件下,V-TIFA优于现有的奖励生成方法。
摘要 - 大语言模型研究(LLM)的最新突破引发了几个研究领域的转变。值得注意的是,LLM的集成在机器人任务和运动计划(TAMP)中的性能大大提高。然而,以前的方法经常忽略对动态环境的考虑,即,人类等动态对象的存在。在本文中,我们提出了一种新颖的方法来解决这一差距,通过将人类意识纳入基于LLM的机器人任务计划中。为了获得动态环境的有效表示,我们的方法将人类的信息整合到层次结构场景图中。为了确保计划的可执行性,我们利用LLMS将环境拓扑和可行的知识融入正式的计划语言中。最重要的是,我们使用LLM来预测未来的人类活动和计划任务为机器人考虑预测。我们的贡献促进了将人类意识纳入LLM驱动的机器人任务计划的发展,并为在动态环境中积极主动的机器人决策铺平了道路。
海伦·凯利·霍尔姆斯(Helen Kelly-Holmes)呼吁探索社会商业驱动数字化增加的社会语言学对社会语言学的影响。像凯利·霍尔姆斯(Kelly-Holmes)一样,我们同意,在我们生活的各个方面,在线和人工智能(AI)技术的越来越普遍需要对自植入以来已经建立社会语言研究的假设,方法和实践的批判性评估。我们的讨论证实了海伦的观察结果,但我们也敦促发展为理解语言作为数字数据的一般批判态度。我们论点的起点是海伦声称从公共数字空间中删除了“真实”语言,“使收集有关真实用法的数据更加困难,因为有必要依靠公共区域和/或谈判对这些私人空间进行谈判访问”(第5页)。对我们来说,她的观察结果使视语作为数据一直有问题。我们想提出两个问题:使用数字用户数据作为语言和社区的代表的一般认识论局限性,以及随之而来的方法需要认真对待语言在其社会,政治和技术背景下进行研究。我们建议民族志作为