我们考虑一个分布式学习环境,其中战略用户受到融合中心的激励,以基于本地数据训练学习模型。用户没有义务提供他们的真实梯度更新,而融合中心无法验证所报告更新的真实性。受此启发,我们将融合中心与用户之间的互动表述为重复博弈,体现了机器学习与博弈论之间尚未得到充分探索的相互作用。然后,我们基于联合梯度估计和用户行为分类方案为融合中心开发了一种激励机制,并研究了其对分布式学习收敛性能的影响。此外,我们设计了自适应零决定 (ZD) 策略,从而将经典的 ZD 策略推广到具有时变随机误差的重复博弈。理论和实证分析表明,融合中心可以激励战略用户合作并报告信息丰富的梯度更新,从而确保收敛。
主要关键词