通过加强学习的偏好对齐...___XiaoMi-AI 助力科研平台

通过加强学习的偏好对齐...

可下载资源数量

已经购买

下载数量：1

单价	0 3.0
Coupon	100% 0%
Total	0 3.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过加强学习的偏好对齐...

¥ 3.0

热度

学分：[1] Christiano等。，《神经》 17中的深入强化从人类的偏好中学习。[2] Ziegler等。，来自人类偏好的微调语言模型，在Arxiv'19中。[3] Ouyang等。，培训语言模型在Neurips'22中按照人为反馈的指示进行指示。[4] Rafailov等。，直接偏好优化：您的语言模型是秘密的奖励模型，在Neurips'23中。[5] Hong等。，ORPO：Arxiv'24中的无参考模型的单片偏好优化。

添加pdf代下载 VIP点击下载文件