详细内容或原文请订阅后点击阅览
联邦学习,第 1 部分:数据所在的训练模型的基础知识
了解联邦学习的基础联邦学习后,第 1 部分:数据所在的训练模型的基础知识首先出现在《走向数据科学》上。
来源:走向数据科学我在 2019 年通过 Google 的漫画了解了联邦学习 (FL) 的概念。这是一篇精彩的作品,很好地解释了如何在不将用户数据发送到云端的情况下改进产品。最近,我一直想更详细地了解该领域的技术方面。训练数据已经成为一种重要的商品,因为它对于构建良好的模型至关重要,但其中很多数据因为碎片化、非结构化或锁定在孤岛内而未被使用。
当我开始探索这个领域时,我发现 Flower 框架是 FL 入门最直接、最适合初学者的方式。它是开源的,文档清晰,周围的社区非常活跃且乐于助人。这是我对这个领域重新产生兴趣的原因之一。
本文是我更深入探讨联邦学习系列的第一部分,涵盖它是什么、它是如何实现的、它面临的开放问题以及为什么它在隐私敏感的环境中很重要。在下一部分中,我将更深入地探讨 Flower 框架的实际实施,讨论联邦学习中的隐私,并研究这些想法如何扩展到更高级的用例。
当集中式机器学习不理想时
我们知道人工智能模型依赖于大量数据,但许多最有用的数据都是敏感的、分布式的且难以访问。想想医院、电话、汽车、传感器和其他边缘系统内的数据。隐私问题、当地规则、有限的存储和网络限制使得将这些数据移动到中心位置非常困难甚至不可能。结果,大量有价值的数据仍未被使用。在医疗保健领域,这个问题尤其明显。医院每年产生数十 PB 的数据,但研究估计,其中高达 97% 的数据未被使用。
在这种情况下,会出现两个常见的选择。一种选择是根本不使用这些数据,这意味着有价值的信息仍然被锁在孤岛中。
