近年来,对话大语模型(LLMS)1经历了快速发展(Touvron等人,2023; Chiang等。,2023; Openai,2023a),在不同应用中显示出强大的对话功能(Bubeck等人,2023; Chang等。,2023)。但是,在对话期间也可以利用LLMS来促进诸如欺诈和网络攻击之类的危害活动,并出现重大的社会风险(Gupta等人。,2023; Mozes等。,2023;刘等。,2023b)。这些风险包括有毒含量的传播(Gehman等人。,2020年),歧视性双期的持续性(Hartvigsen等人,2022),并传播错误信息(Lin等人,2022)。对LLM交通安全性的日益关注 - 特别是确保LLM依据没有有害信息 - 已导致广泛的攻击和国防研究
主要关键词