最近的研究表明,从人类反馈(RLHF)中学习的教学调整(IT)和加强学习会显着提高大语言模型(LMS)的能力。尽管这些调整方法可以帮助将模范与人类目标保持一致并产生高质量的文本,但对它们的潜在不利影响知之甚少。在这项工作中,我们对IT和RLHF的影响进行了对LMS的做法和推理的影响,重点是三种认知偏见(诱饵效应,确定性效应和信仰偏见),这些偏见都众所周知,这些偏见都会影响人类的决策 - 做出和推理。我们的发现突出了这些偏见在GPT-3,Mistral和T5家族中的各种偏见中的存在。值得注意的是,我们发现在经过指导调节的模型中,Bi-ASE的存在更强,例如Flan-T5,Mistral-Instruct,GPT3.5和GPT4。我们的工作构成了理解教学调整LMS认知偏见的一步,这对于开发更可靠和不可用的语言模型至关重要。1