深度加强学习(DRL)在跨不同领域的序列决策任务中取得了显着的成功,但其对黑盒神经体系结构的依赖阻碍了可相互可预性,信任和在高风险应用程序中的部署。可解释的深度强化学习(XRL)通过通过特征级别,州级,数据集级别和模型级解释技术来实现透明度来解决这些挑战。本调查提供了对XRL方法的全面审查,评估了其质量和定量评估框架,并探讨了它们在政策改造,副本的鲁棒性和安全性中的作用。此外,我们研究了通过从人类反馈(RLHF)学习的强化学习的大语模型(LLM)的增强学习的整合,从而优化了AI与人类偏好的一致性。我们通过高照明开放研究挑战和未来的指导来结束,以促进可解释,可靠和负责任的DRL系统的发展。
培训大语言模型(LLM)已成为人工智能进展的核心,数据集,培训前和训练后方法在其性能和可扩展性方面扮演着互补的角色。此博士学位课程探讨了训练这些模型的关键阶段,并强调了数据对下游任务中模型性能的影响。学生将通过全面研究数据集构建,优化技术,缩放定律,培训前策略,合成数据生成以及培训后的改进(例如,进行微调和对齐方式),通过全面的研究构建LLM的理论和实践。该课程将结合理论指导与动手实验相结合。学生将洞悉:##创建高质量,多样化和有效数据集的原则和方法。##¢优化策略,用于大规模模型培训,包括计算效率。##经验缩放定律及其对模型大小和数据集大小的影响。#¢利用合成数据及其在改善概括和鲁棒性中的作用。##训练技术,例如人类反馈(RLHF)的增强学习以及与期望的结果结合。
作为AI功能,越来越多地超过了人类在复杂任务中的水平,当前的一致性技术在内,包括SFT和RLHF在确保可靠的监督方面面临着基本挑战。这些方法依赖于直接的人类评估,并且当AI输出超过人类认知阈值时变得站不住脚。应对这一挑战,我们探讨了两个假设:(1)对批评的行为比批评本身更容易,从而扩展了广泛认可的观察,即验证比批评本身是一种专业的一代形式,而对cripique领域来说比生成更容易。 (2)这种难度关系被递归地持有,表明当直接评估是不可行的,进行高阶的文献(例如,对批评批评的批评)提供了更可拖延的监督途径。考试这些假设,我们在多个任务中执行人类,人类和AI-AI实验。我们的结果表明,支持这些假设和表达的令人鼓舞的证据表明,递归自我批判是可扩展监督的有前途的方向。
语言模型的训练过程具有Demon-043在减少虚假,有毒和其他044不想要的模型生成输出方面具有潜在的潜力。但是,Cur- 045租金RLHF(Ramamurthy等人,2023; Bai等。,046 2022a,b)始终依靠整体反馈,047在识别具有长文本输出049(例如数学)的048多步推理任务中识别特定错误的局限性。050最近,细粒度RLHF(Wu等人,051 2023)提议提供细粒的进料-052回到LMS输出,将UN-053类别的类别相关联(例如,false或false或无关的属 - 054个tions)和一个密度的文本跨度(例如,句子或055 subs-sendence sendence sendence sendence leellevel)。他们将多个精细奖励奖励整合到近端政策优化057(PPO)中(Schulman等人。,2017年)用于训练LMS 058,具有基于偏好的人类反馈,该反馈概念显示了疗效和数据效率060(具有密集奖励的培训模型的培训效率)比较了061与两个LAN-LAN-062 Gaige Instrice separtions的整体序列奖励奖励(GEHMAN 063 ET。,2020年)和长期问题回答064(QA)(Stelmakh等人,2022)。另一项紧密的重新统计工作,程序监督奖励模型066(PRM)(Lightman等人,2023),使用过程067监督培训为每个068中间推理步骤提供反馈,表明过程069监督比结果监督更可靠的奖励070型号。RE-074病房模型能够提供句子级别或075步骤级奖励。071尽管有这些优势,但仅限072才证明了收集人类反馈和073培训的方式是更可靠的奖励模型。虽然在近端策略076优化(PPO)培训期间,策略模型为077仍针对样本级别的奖励进行了优化,每个示例的策略更新为078。PPO培训中的广义AD-079 Vantage估计函数(GAE)080导致偏差,尤其是对于需要081生成长形式文本的任务,例如复杂的082数学任务。因此,它也很重要083
蛋白质语言模型(PLM)已成为用于蛋白质序列设计的最先进工具。plms并没有固有地设计具有超出自然界的功能的新序列,这表明了与蛋白质工程的未对准,该目标是重新设计具有增强功能的蛋白质序列的蛋白质工程目标。在自然语言处理领域,通过人类反馈(RLHF)的强化学习使大型语言模型Chat-gpt通过监督的微调(SFT)和近端政策优化(PPO)使首选响应一致。我们使用实验数据适应了SFT和PPO来对PLM的功能排列,并使用实验反馈(RLXF)调用此方法增强学习。我们使用RLXF将ESM-2和生成的变分自动编码器对齐,以设计与氧无关的荧光蛋白Creilov的5个突变体变体。我们发现,对齐的ESM-2的设计较大,具有活性,至少与Creilov一样明亮,并带有体内荧光测定。我们将RLXF作为一种多功能方法,用于使用实验数据重新设计实验数据在功能上对齐PLM。
大语言模型(LLMS)在各种领域和语言中表现出雄性的能力。然而,低资源语言(例如印尼 - 西安土著语言)出现了一个显着的质量差距,使它们在这种语言文本中具有无效和效率低下。为了弥合这一质量差距,我们介绍了Cendol,Cendol是印尼LLM的集合,其中包含了仅解码器和编码的解码器体系结构,这些架构遍布各种型号。我们强调了Cendol在各种任务中的有效性,取得了约20%的提高,并证明了其概括印度尼西亚看不见的任务和土著语言的能力。此外,Cendol模型展示了改善人类的偏爱,尽管它们在捕获印尼的知识知识和文化价值方面存在局限性。此外,我们讨论了用于语言适应的参数有效调谐(例如Lora)的缺点。另外,我们提出词汇适应的用法以提高效率。最后,我们评估了Cendol的安全性,并展示了一种语言(例如英语)的预训练的安全性,即使没有RLHF和安全性微调,也可以转移到低资源语言(例如印尼语)。1
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
系统安全隐私OS,VM,容器,云宠物,匿名技术网络:SDN,NFV,SD-WAN去识别攻击IoT,RFID,SCADA系统监视和审查沟通协议的推理推理,相关性,相关性IDS IDS,IPS,IPS,IPS,SIEM,SIEM,SIEM,SIEM,XDR,XDR,BOCKCHAIN HOYERENICIT,ETTECTERTINS等级,botoctnentiment,botoctnentimention等,等级,botoctnentiment,botoctnentimention等, scalability Authentication, MFA Smart contracts, concurrency Authorization model/policy DIDs, NFTs, CBDCs, AML PKI & Trust management Security in AI/ML Information flow control Adversarial learning/inputs Application Security Prompt injection, RLHF strategies Vulnerabilities, DevSecOps Model stealing, poisoning API security, WAF, OWASP Emerging Tech/Standards Static/Binary analysis, Zero trust ChatGPT, LaMDA, Dall-E 2, etc Malware, Ransomware, APTs Security-by-design, SBOM Hardware Security Privacy-by-design, STIX/TAXII Remote attestation, PUFs S&P Use Cases Trojans, Backdoors, FPGA e-voting, e-gov, smart cities TEE, TRNG, 2FA, payment wallets COVID-19 contact tracing
将增强学习(RL)应用于序列生成模型,可以直接优化长期校正(例如BLEU和人类反馈),但通常会在动作序列的空间序列上进行大规模抽样。这是序列产生问题(例如机器变速器)的实践所带来的计算挑战,在那里我们经常处理较大的动作空间(例如词汇表)和长长的动作序列(例如,翻译)。在这项工作中,我们引入了两阶段的采样和dy-namic抽样方法,以通过RL在训练序列产生模型期间提高采样效率。我们就传统的发电任务进行了尝试,包括机器翻译和抽象性摘要。此外,我们通过使用奖励模型训练大型语言模型来评估人类反馈(RLHF)中的RL的AP。实验结果表明,基于ASRL的有效采样的RL可以在训练效率和记忆消耗方面均超过所有基准。值得注意的是,ESRL在强大的增强,最低风险训练和近端政策优化方法上产生一致的性能。该代码可在https:// github上找到。com/wangclnlp/deepspeed-chat-extension/示例/esrl。
通过加强学习(RLHF)将大型语言模型(LLM)与人类偏好保持一致,可以导致奖励黑客,在这种情况下,LLMS在奖励模型(RM)中利用失败(RM)以实现看似高的奖励,而无需实现基本的目标。我们在设计RMS时确定了两个主要挑战以减轻奖励黑客黑客:在RL过程中的分配变化以及人类偏好的不一致。作为解决方案,我们提出了平均奖励模型(温暖),首先对多个RM进行细调,然后在重量空间中平均它们。此策略遵循以下观察结果:在共享相同的预训练时,微调权重保持线性模式。通过平均权重,与传统的预测结合相比,温暖提高了效率,同时提高了分配变化和偏好不一致的鲁棒性的可靠性。使用最佳和RL方法,我们对摘要任务的实验表明,温暖可以提高LLM预测的总体质量和一致性;例如,用温暖调整的策略RL对单个RM进行微调的政策RL的胜利率为79.4%。