详细内容或原文请订阅后点击阅览
联合设置中的私有和个性化频率估计
受用户设备上的下一个单词预测问题的启发,我们引入并研究了联合设置中的个性化频率直方图估计问题。在此问题中,在某些领域,每个用户都会从特定于该用户的分布中观察多个样本。目标是为所有用户计算用户分布的个性化估计,误差以 KL 散度来衡量。我们专注于解决两个核心挑战:统计异质性和用户隐私保护。我们解决问题的方法依赖于发现和利用类似的……
来源:Apple机器学习研究受用户设备上下一个单词预测问题的启发,我们引入并研究了联合设置中的个性化频率直方图估计问题。在此问题中,在某些领域,每个用户都会从特定于该用户的分布中观察大量样本。目标是为所有用户计算用户分布的个性化估计,误差以 KL 散度来衡量。我们专注于解决两个核心挑战:统计异质性和用户隐私保护。我们解决这个问题的方法依赖于发现和利用现实世界数据中经常存在和隐藏的类似用户子群体,同时最大限度地减少用户隐私泄露。我们首先为该问题提出一种基于非私有聚类的算法,并给出一个可证明的联合差分私有版本,该版本具有私有数据相关初始化方案。接下来,我们提出了一个基于狄利克雷分布混合的简单数据模型,以正式激励我们的非私有算法并展示其组件的一些属性。最后,我们在 Reddit、StackOverflow 和 Amazon Reviews 数据集上对不同统计和规模异质性水平的私有和非私有算法进行了广泛的实证评估。我们的结果表明,与标准和基于聚类的基线相比,我们的算法有显著的改进,特别是,它们表明,与单个全局模型的直接个性化相比,算法有可能得到改进。