大型语言模型(LLM),例如表现出生成AI功能的CHATGPT,正面临着加速的采用和创新。生成AI(GAI)的存在不可避免地引起了人们对这些模型相关的风险和安全性的担忧。本文从计算机科学家的角度:特定而技术的,对GAI-LLM的AI安全研究的最新趋势提供了最新的调查。在本调查中,我们探讨了在LLMS是生成语言模型的背景下确定的危害和风险的背景和动机;我们的调查通过强调对LLMS研究开发和应用中独特的安全挑战的统一理论的需求来区分。我们以相关文献支持的LLMS的工作简明介绍开始讨论。然后,我们讨论了早期的研究,该研究指出了生成模型的基本限制,或者缺乏其理解(例如,作为参数数量的LLMS量表的性能和安全权衡)。我们提供了足够的LLM对齐方式的覆盖范围 - 研究各种方法,争夺方法,并提出与将LLM与人类偏好保持一致的挑战。通过突出文献中的差距和可能的实施监督,我们的目的是创建一个全面的分析,为解决LLMS中的AI安全性提供见解,并鼓励开发一致和安全的模型。我们通过讨论LLMS的未来AI安全性方向来结束调查,从而提供了对这个关键领域正在进行的研究的见解。
主要关键词