哈佛大学计算机科学教授,哈佛大学法学院和统计局的隶属教师戈登·麦凯(Gordon McKay)计算机科学教授,著名的教职员工以对数学上严格的基础进行隐私数据分析而闻名。 她还在密码学和分发计算方面做出了开创性的贡献,她率先研究了算法公平理论,即她目前的重点。 DWORK是众多奖项的获得者,包括IEEE HAMMING奖章,RSA数学卓越奖,Dijkstra,G \“ {O} DEL和Knuth奖,以及ACM Paris Kanellakis理论与实践奖。 她是美国国家科学院和美国国家工程学院的成员,并且是美国艺术与科学学院和美国哲学学会的会员。戈登·麦凯(Gordon McKay)计算机科学教授,著名的教职员工以对数学上严格的基础进行隐私数据分析而闻名。她还在密码学和分发计算方面做出了开创性的贡献,她率先研究了算法公平理论,即她目前的重点。DWORK是众多奖项的获得者,包括IEEE HAMMING奖章,RSA数学卓越奖,Dijkstra,G \“ {O} DEL和Knuth奖,以及ACM Paris Kanellakis理论与实践奖。她是美国国家科学院和美国国家工程学院的成员,并且是美国艺术与科学学院和美国哲学学会的会员。
自动化决策系统越来越多地用于我们的日常生活中,例如在贷款,保险和医疗服务的背景下。一个挑战是,这些决策系统可以证明对弱势群体的歧视(Dwork等,2012)。为了减轻此问题,已经提出了公平的限制(Hardt等,2016; Dwork等,2012),例如寻求实现某些统计奇偶校验属性。尽管公平的机器学习已经进行了广泛的研究,但大多数工作都考虑了静态设置,而无需考虑决策的顺序反馈效果。同时,算法决定可能会通过与社会的反馈循环来改变数据中基本统计模式的变化。反过来,这会影响决策过程;
可重复使用的持有:在自适应数据分析中保留有效性。Cynthia Dwork,Vitaly Feldman,Moritz Hardt,Toniann Pitassi,Omer Reingold和Aaron Roth。科学。349(6248),第636-638页(在线补充材料)。2015年8月7日。(Penn News功能:https://news.upenn.edu/news/p Research-helps-develop-algorithm-aimed-combating-sciencation-science-s-Science-s-reprodroducibilible-problem)。2015年帕特·戈德堡纪念奖奖获得者。
用于在SGD中绘制随机批次。我们的符号还允许确定性算法,因为A可以自由忽略输入参数ξ而仅取决于数据。有很多方法可以定义学习算法的稳定性。如Shalev-Shwartz等人所述。 (2010),稳定性的每一个定义都量化了训练集D的输出对小变化的敏感性,但它们都定义了“输出的敏感性”和“训练集中的小变化”。 我们介绍了两个定义稳定性的主要结果,并将结果扩展到第5.3节中的许多相关概念。 最强的可能性之一是,对于所有数据集和所有测试点,每个预测都不对删除任何单个观察结果不敏感。 以下定义与统一的预测稳定性密切相关(例如,参见Dwork和Feldman,2018年)。如Shalev-Shwartz等人所述。(2010),稳定性的每一个定义都量化了训练集D的输出对小变化的敏感性,但它们都定义了“输出的敏感性”和“训练集中的小变化”。我们介绍了两个定义稳定性的主要结果,并将结果扩展到第5.3节中的许多相关概念。最强的可能性之一是,对于所有数据集和所有测试点,每个预测都不对删除任何单个观察结果不敏感。以下定义与统一的预测稳定性密切相关(例如,参见Dwork和Feldman,2018年)。
过去二十年来,在开发隐私技术进行数据分析方面发生了爆炸。加密技术,例如完全同构加密和安全的多方计算(例如(Gentry,2009; Ben-Or等人,1988年; Chaum等。,1988年))为如何委派,处理和组合私人定量数据创造了丰富的选择 - 而没有不必要地揭示潜在的细节。定义和基础工作,例如差异隐私的开发(Dwork等,2006年)及其实际部署(例如(局等人,2023年))为隐私保护设定了新的高标准,使我们能够在不牺牲个人的情况下为数据科学的集体利益带来。但是 - 人们最终不是数字。叙事才能让我们感到被听到和被听到,并恢复情感深度,以使经验被变成数字和分类表示。我也是如此的运动表明了个人叙事在将广泛的体验带到揭示的方式上,以纯数字无法实现的方式。这种权力通常会以巨大的风险行使 - 包括对幸存者的风险
保留培训数据的隐私已成为一个重要的考虑因素,现在对于机器学习算法来说是一项艰巨的任务。要解决隐私问题,依从于密码学的差异隐私(DP)(Dwork等,2006)是一个强大的数学保存计划。它允许进行丰富的统计和机器学习分析,现在正成为私人数据分析的事实上的符号。保证差异隐私的方法已被广泛研究,最近在行业中采用(Tang等,2017; Ding等,2017)。作为机器学习和差异隐私社区中最重要的问题之一,在过去的十年中,DP模型中的经验风险最小化问题(即DP-erm)在(Chaudhuri等人,2011年)开始,已经在过去的十年中进行了很好的研究,例如(Bassily等,2014; Bassily等,2014; Wang et ant; Jin,2016年,Kifer等人,2017年,Wang等人,2018a,2019b;dp-dp-erm,其人口(或预期)版本,即私人的固定式凸优化(DP-SCO),近年来从(Bassily等,2014)开始受到很多关注。特定于(Bassily等,2019)首先提供了DP-SCO的最佳速率,具有(ϵ,δ)-DP的一般凸损耗函数,这与DP-MERM中最佳速率不同。后来(Feldman等,2020)通过提供一般性定位技术,将此问题扩展到强烈凸出和(或)非平滑案例。此外,如果损耗函数平滑,它们的方法具有线性时间复杂性。对于非平滑损失函数,(Kulkarni等,2021)最近提出了一种仅需要亚限级梯度复杂性的新方法。虽然已经有大量有关DP-SCO的研究,但问题仍然远远不够知名度。一个关键的观察结果是,所有以前的作品仅着眼于损失函数是一般凸或强凸的情况。但是,还有许多问题甚至比强凸功能强,或者落在凸功能和强烈凸功能之间。在非私人对应物中,各种研究试图通过对损失函数施加其他假设来获得更快的速度。并且已经表明,实现比一般凸损失函数速率快的速率确实可以(Yang等,2018; Koren and Levy,2015; van Erven等,2015),或者甚至可以达到与强凸的强劲速率相同的速率,即使函数也不强劲,karimi et al al an al al an al al and act al and act al and act an al al an al an al an al al an al al an al al al al al al al al al al al al al al al al al al al al al al al al al al a al al a al al act 201 v exe et a al and lie et as act 2010 8。 Al。,2017)。以此为动机,我们的问题是,对于具有特殊类别的人口风险功能的DP-SCO问题,是否有可能比一般凸的最佳人口和(或(或)强烈凸出案例的最佳人口风险率更快?在本文中,我们通过研究一些类别的人口风险功能来提供有效的答案。尤其是,我们将主要关注种群风险功能满足Tysbakov噪声条件(TNC)1的情况,其中包括强烈凸功能,SVM,SVM,ℓ1频繁的随机性优化和线性回归为特殊情况