Loading...
机构名称:
¥ 1.0

在演讲中,我将介绍我的实验室在人工智能、应用机器学习和数据挖掘方面的最新进展,以打击网络和社交媒体平台上的恶意行为者(傀儡、逃避禁令者等)和危险内容(错误信息、仇恨等)。我的愿景是为每个人创建一个值得信赖的在线生态系统,并创建下一代促进健康、公平和安全的社会意识方法。总的来说,在我的研究中,我创建了新颖的图形、内容(NLP、多模态)和对抗性机器学习方法,利用 TB 级数据来检测、预测和缓解在线威胁。我的跨学科研究创新了社会技术解决方案,这些解决方案是我通过将计算机科学与社会科学理论相结合而实现的。我也热衷于将我的研究付诸实践——我实验室的模型已经部署在 Flipkart 上,影响了 Twitter 的 Birdwatch,现在正在部署在维基百科上。我的研究开启了范式转变,从当前缓慢而被动的应对网络危害的方法转向敏捷、主动和全社会的解决方案。我的演讲将概述我研究的四个重点:(1)跨平台、语言和模式检测有害内容和恶意行为者:我的研究超越了研究“推特上的英文文本”的标准实践,旨在解决解决跨平台(Micallef 等人,2022 年)、语言(Verma 等人,2022b 年)和模式(Verma 等人,2022b、c)(图像、视频、文本)根深蒂固的基本问题的巨大挑战。 (2) 通过预测未来的恶意活动,增强检测模型对敌对行为者的鲁棒性:我的工作是通过开发第一种对抗性学习技术来突破界限,以主动预测对手行为来欺骗检测模型。接下来,我们提高模型对操纵的鲁棒性。我的实验室调查了部署在一些最大平台上的模型的漏洞:Facebook 的 TIES 坏人检测器(He、Ahamad 和 Kumar 2021)、Twitter 的 Birdwatch 错误信息检测器(Mujumdar 和 Kumar 2021)和维基百科的禁令逃避(Niverthi、Verma 和 Kumar 2022)。(3) 归因于有害内容的影响和推荐系统的作用:我的实验室创建了数据驱动的技术来确定网络危害对

检测、稳健性、归因和缓解

检测、稳健性、归因和缓解PDF文件第1页