Loading...
机构名称:
¥ 2.0

图形神经网络(GNN)已显着提高了药物发现领域,从而提高了分子鉴定的速度和效率。但是,培训这些GNN需要大量的分子数据,这促使了协作模型共享计划的出现。这些举措促进了在组织中共享分子预培训模型的情况,而无需暴露专有培训数据。尽管有好处,但这些分子预训练的模型仍可能带来隐私风险。例如,恶意对手可以执行数据提取攻击以恢复私人培训数据,从而威胁商业秘密和协作信任。这项工作首次探讨了从分子预训练模型中提取私人训练分子数据的风险。这项任务是非凡的,因为分子预训练的模型是非生成性的,并且表现出多种模型架构,这与语言和图像模型明显不同。为了解决这些问题,我们引入了一种分子生成方法,并提出了一种新颖的,独立于模型的评分函数,以选择有希望的分子。为了有效地减少潜在分子的搜索空间,我们进一步引入了一个分子提取策略网络,以进行分子提取。我们的实验表明,即使仅查询分子预先训练的模型,也存在提取培训数据的很大风险,这挑战了这样的假设,即单独模型共享提供了足够的保护,以防止数据提取攻击。我们的代码可在以下网址公开获取:https://github.com/ molextract/data-extraction-from-molecular-molecular-pre-preated-model-model。

从分子预训练模型中提取训练数据

从分子预训练模型中提取训练数据PDF文件第1页

从分子预训练模型中提取训练数据PDF文件第2页

从分子预训练模型中提取训练数据PDF文件第3页

从分子预训练模型中提取训练数据PDF文件第4页

从分子预训练模型中提取训练数据PDF文件第5页

相关文件推荐

2022 年
¥4.0
2022 年
¥4.0
2023 年
¥2.0
2022 年
¥6.0
2021 年
¥6.0
2021 年
¥6.0
2022 年
¥6.0
2022 年
¥4.0
2024 年
¥5.0
2023 年
¥1.0