与SLMS相比,LLMS与人类偏好相比表现出Supe-050 Rior对齐(OpenAI,051 2024; Georgiev et al。,2024)。因此,ex-052 iSting Works llms作为教师提炼053偏好知识(Bai等人,054 2022; Cui等。,2023; Tunstall等。,2024; Wang 055等。,2024; Yuan等。,2024)。所有这些作品056模型在LLM中的模型偏好知识比较了成对响应。例如,Bai 058等。(2022)使用对059培训奖励模型的教师注释的响应,该奖励模型通过加强学习指导学生060。同样,Tunstall 061等。(2024)采用教师模型以偏爱-062 ence注释,但使用蒸馏的直接优先优化 - 064(Rafailov等人)直接优化了学生063模型(Rafailov等人。,2023)在注释数据集上。065然而,这些066“教师通知者”提供的监督信号采用订购067
学分:[1] Christiano等。,《神经》 17中的深入强化从人类的偏好中学习。[2] Ziegler等。,来自人类偏好的微调语言模型,在Arxiv'19中。[3] Ouyang等。,培训语言模型在Neurips'22中按照人为反馈的指示进行指示。[4] Rafailov等。,直接偏好优化:您的语言模型是秘密的奖励模型,在Neurips'23中。[5] Hong等。,ORPO:Arxiv'24中的无参考模型的单片偏好优化。
由于行业中LMS广泛部署和面向客户的应用程序,缓解语言模型(LMS)中缓解偏见已成为一个关键问题。许多方法围绕着数据预处理和随后对语言模型的微调,可能既耗时又需要计算要求的任务。作为替代方案,正在研究机器学习技术,但是缺乏比较研究来评估这些方法的有效性。在这项工作中,我们探讨了两种机器未学习方法的效率:分区的对比梯度 - 未学习(PCGU)(Yu等人。,2023)应用于解码器模型,并通过任务向量进行否定(Ilharco等人,2022),并将它们与直接偏好优化(DPO)进行比较(Rafailov等,2024)减少开源LMS(例如Llama-2和Opt 1)中的社会偏见。我们还为大型模型2实施分布式PCGU。通过量化和定性分析,通过任务向量方法的否定表现优于PCGU,并且在模型性能最小恶化和困惑性中,通过量化和定性分析表明,通过任务向量方法的否定。通过任务矢量的否定,千层面-2的偏差得分为25.5%,并使OPT模型的偏置减少多达40%。此外,与DPO不同,它可以轻松调整以平衡降低偏差和发电质量之间的权衡。
离线增强学习的最新进展(RL)(Levine等人,2020年)使用预采用的数据集为现实世界中的培训政策开辟了可能的可能性(Kalashnikov等人。,2018年; Rafailov等。,2021; Kalashnikov等。,2021),自然语言处理(Jaques等人,2019年),教育(De Lima and Krohling,2021年),电力供应(Zhan等人,2022)和医疗保健(Guez等人,2008年; Shortreed等。,2011年; Wang等。,2018年;基利安等人。,2020)。虽然大多数离线RL研究都集中在单任务问题上,但是在许多实际情况下,多个任务是相关的,并且通过利用所有可用数据共同学习多个任务是有益的(Kalashnikov等人。,2018年; Yu等。,2021,2022; Xie and Finn,2022)。在这种情况下,一种流行的方法是多任务表示学习,该代理的目的是通过在相关任务之间提取共享的低维表示功能来解决问题,然后在此通用表示上使用简单功能(例如线性)来解决每个任务(Caruana,1997; Baxter,2000)。尽管多任务表示学习取得了经验成功,尤其是在增强学习在降低样品复杂性方面的功效方面的实现(Teh等人,2017年; Sodhani等。,2021; Arulkumaran等。,2022),对其的理论理解仍处于早期阶段(Brunskill和Li,2013年; Calandriello等人。,2014年; Arora等。,2020年; Eramo和Al。,2020年;胡和al。,2021; lu和al。,2021; Pacchiano的磨坊,2022年)。虽然