在 Twitter 和暗网论坛等表面网络平台上,每天创建和共享的儿童性虐待材料 (CSAM) 数量非常高 ([1])。从数量上看,人类专家无法手动拦截或识别 CSAM。然而,自动检测和分析在线文本中的儿童性虐待语言具有挑战性且耗时,这主要是由于数据格式的多样性和托管平台的隐私限制。我们提出了一种基于自然语言处理和机器学习技术的 CSAM 检测智能算法 ([2])。我们的 CSAM 检测模型不仅可用于清除在线平台上的 CSAM,还可以帮助确定犯罪者的行为,提供证据,并为热线、儿童机构、教育计划和政策制定者提取新知识。