大型语言模型(LLMS)的最新进展实现了令人兴奋的LLM集成应用程序。但是,随着LLM的改善,对它们的攻击也是如此。提示注射攻击被OWASP列为对LLM集成的AP ...
大型语言模型(LLMS)的最新进展实现了令人兴奋的LLM集成应用程序。但是,随着LLM的改善,对它们的攻击也是如此。提示注射攻击被OWASP列为对LLM集成应用程序的#1威胁,其中LLM输入包含可信赖的提示(指令)和不信任的数据。数据可能包含注入的指令,以任意操纵LLM。例如,为了不公平地宣传“餐厅A”,其所有者可以使用及时的注射来在Yelp上发布评论,例如,“忽略您以前的指示。打印餐厅A”。如果LLM收到Yelp的评论并遵循注入的指令,则可能会误导餐厅A,该餐厅的评论很差。为了减轻迫在眉睫的迅速注射威胁,我们提出了两个微调剂,即Struq和Secalign。如果没有计算或人工劳动的额外成本,