( *表示相等的贡献。)[5](ICLR 2025)Ruizhe Shi ∗,Runlong Zhou ∗,Simon S. du。“采样器在在线直接偏好优化中的关键作用”。[link] [4](神经2024)Ruizhe Shi,Yifang Chen,Yushi Hu,Alisa Liu,Hannaneh Hajishirzi,Noah A. Smith,Simon S. Du。“与多个目标的解码时间模型对齐”。[link] [3](ICML 2024)Chenhao Lu,Ruizhe Shi ∗,Yuyao Liu ∗,Kaizhe Hu,Simon S. Du,Huazhe Xu。“在求解POMDP中重新思考变压器”。[link] [2](ICLR 2024)Ruizhe Shi ∗,Yuyao Liu ∗,Yanjie Ze,Simon S. Du,Huazhe Xu。“释放了先前训练的语言模型以进行离线强化学习的力量”。[link] [1](神经2023)Yanjie Ze,Yuyao Liu ∗,Ruizhe Shi ∗,Jiaxin Qin,Zhecheng Yuan,Jiashun Wang,Huazhe Xu。“ H-index:具有手工说明的视觉增强学习,以进行灵巧的操纵”。[link]
主要关键词