Loading...
机构名称:
¥ 1.0

虽然与数据泄漏有关,但毒性是指明确的输出,例如滥用语言和亵渎性以及隐性输出,例如有害的单词或有关人的概念。分类模型,通常称为毒性分类器,已成功地用于检测显式毒性。但是,检测隐式毒性所需的细微差别提出了更大的挑战。在这些LLM响应中通常采用了高级语言能力,例如隐喻,讽刺和偏僻。一个众所周知的毒性事件是X用户在聊天机器人上发布炎症内容后的TAY发布,后来在连续的培训过程中将其纳入了模型中。

LLM安全评估

LLM安全评估PDF文件第1页

LLM安全评估PDF文件第2页

LLM安全评估PDF文件第3页

LLM安全评估PDF文件第4页

LLM安全评估PDF文件第5页