摘要 - 作为一种公平而有效的资源分配方法拍卖机制已被广泛用于品种交易方案,例如广告,众汇和频谱。但是,除了获得更高的利润和满意度外,隐私问题还引起了研究人员的关注。在本文中,我们主要研究了针对间接推理攻击的双重拍卖市场中保存隐私问题。大多数现有作品都采用差异隐私理论来防御推断攻击,但存在两个问题。首先,差异隐私(DP)的“难以区分”无法阻止拍卖市场中持续估值。第二,尚未解决差异隐私部署中的隐私 - 实用性权衡(PUT)。为此,我们提出了一种基于攻击防御的强化钢筋学习隐私方法 - 保存实际上在双重拍卖中提供隐私保护的方法。首先,拍卖师充当防守者,为投标人的估值增加了噪音,然后充当发射推理攻击的对手。之后,拍卖师使用攻击结果和拍卖结果作为指导下一次部署的参考。上述过程可以视为马尔可夫决策过程(MDP)。国家是当前步骤下每个投标人的估值。动作是添加到每个竞标者中的噪声。奖励由隐私,公用事业和培训速度组成,其中攻击成功率和社会福利被视为隐私和效用的衡量标准,使用延迟惩罚条款来减少培训时间。利用深层确定性政策梯度(DDPG)算法,我们建立了一个参与者批评网络来解决MDP问题。最后,我们进行了广泛的评估,以验证我们提出的方法的性能。结果表明,与其他现有的基于DP