[1] Wu,Yue等。“春天:研究论文和推理游戏。”关于神经信息处理系统的第三十七次会议。2023。[2] Ammanabrolu,Prithviraj等。“如何避免被刺激吞噬:文本世界的结构化探索策略。”ARXIV预印型ARXIV:2006.07409(2020)。[3] Yao,Shunyu等。“保持冷静和探索:基于文本的游戏中动作生成的语言模型。”2020年自然语言处理经验方法会议(EMNLP)会议论文集。2020。[4] Wei,Jason等。“经过思考的链条促使在大语言模型中引起推理。”神经信息处理系统的进步35(2022):24824-24837。[5] Madaan,Aman等。“自我refine:迭代精致,并进行自我反馈。”Arxiv预印型ARXIV:2303.17651(2023)。