摘要 - 随着机器学习的更广泛采用以及对数据隐私的越来越关注,联邦学习(FL)受到了极大的关注。FL计划通常使一组参与者(即数据所有者)使用其本地数据单独训练机器学习模型,然后将其通过中央服务器的协调来汇总以构建全局FL模型。对标准FL的改进包括(i)通过利用梯度稀疏和(ii)通过采用隐私性汇总(PPAGG)协议来增强聚合的安全性,从而减少梯度传输的通信开销。但是,由于用户稀疏梯度向量的异质性,最新的PPAGG协议并不能轻易与梯度稀疏相互互操作。为了解决此问题,我们提出了一种动态用户聚类(DUC)方法,并采用一组支持协议,根据PPAGG协议和梯度稀疏技术的性质将用户分配到集群中,提供安全性的质量和通信效率。实验结果表明,与基准相比,DUC-FL显着降低了通信开销,并实现了相似的模型精度。所提出的协议的简单性使其对实施和进一步的改进都具有吸引力。
联邦学习(FL)完成了协作模型培训,而无需共享本地培训数据。但是,现有的FL聚合方法遭受了效率低下,隐私脆弱性和对中毒攻击的忽视,从而严重影响了模型培训的整体性能和可靠性。为了应对这些挑战,我们提出了Superfl,这是一种有效的两服务汇总计划,既可以保存又可以保护中毒攻击。两个半honest服务器S 0和S 1相互协作,带有Shuffle Server S 0负责隐私聚类,而分析服务器S 1负责稳健性检测,识别和过滤恶意模型更新。我们的计划采用了同质加密和代理重新加密的新型组合,以实现安全的服务器与服务器协作。我们还利用一种新型的稀疏矩阵投影压缩技术来提高通信效率并显着降低开销。为了抵制中毒攻击,我们基于可信赖的根,将降低维度降低和规范计算引入双过滤算法,以识别恶意模型更新。广泛的实验验证了我们方案的效率和鲁棒性。SuperFL达到了令人印象深刻的压缩比,范围从5-40 x,在不同的模型下,同时以基线为基准的可比较模型精度。值得注意的是,我们的解决方案在MNIST和CIFAR-10数据集中分别显示出最大模型的准确性不超过2%和6%,在特定的压缩比和恶意客户的存在下。
数据生成的迅速增加,结合了大型数据集的不切实际性以及机器学习任务的日益增长的复杂性,促进了分布式学习技术的发展。在其中,联邦学习(FL)由于其隐私保护方法而受到了极大的关注,在这种方法中,多个客户在不共享本地数据的情况下协作训练全球模型。但是,FL面临着几个关键的挑战,包括数据异质性,高计算成本和效率低下。这些问题在客户数据分布是非IID,计算资源有限的现实情况下变得更加明显,并且可以限制通信。本论文通过开发用于个性化联合学习(PFL)的有效算法和受到限制的联邦学习来解决这些挑战。所提出的方法旨在处理异质数据,最大程度地减少计算开销并降低沟通成本,同时保持强大的理论保证。具体而言,论文介绍了三个关键贡献:(1)PFL MF,一种基于低级矩阵优化的新型PFL公式,利用burer-Monteiro分解以实现个性化,而无需依赖预定义的距离指标。(2)PERMFL,一种用于多层PFL的算法,该算法介绍了针对团队和单个设备的个性化决策变量,从而在具有分层客户端结构的情况下有效地优化了。(3)FedFW,一种用于约束FL的无预测算法,该算法强调了通过稀疏信号交换的低计算成本,隐私保存和通信效率。通过解决FL中的关键问题,例如数据异质性,计算成本和通信瓶颈,拟议的算法推进了联合学习的领域,为实地世界应用提供了可靠的可扩展解决方案。
本社论旨在简要介绍信息论在计算生物学和生物信息学领域的应用历史;简洁地总结相关研究的现状和面临的挑战;并描述本期《熵》杂志特刊以“计算生物学中的信息论”为主题的特刊所邀请内容的范围。信息论作为一个研究领域,始于 1948 年克劳德·香农 (Claude Shannon) 的开创性专著《通信的数学理论》的出版[ 1 ]。这项工作引入了包括信息熵、互信息(后来由罗伯特·M·法诺 (Roberto M. Fano) [ 2 ] 创造的一个术语)和将信息表示为二进制数字(位,这个术语归功于约翰·图基 (John Tukey))[ 3 ] 等概念。香农的工作超越了哈里·奈奎斯特和拉尔夫·哈特利在 20 世纪 20 年代以及阿兰·图灵和诺伯特·维纳在 20 世纪 40 年代的相关工作 [ 4, 5 ],描述了数据传输和压缩的基本定律 [ 6 ] 以及在噪声信道上通信效率的理论极限 [ 7 ]。作为一个与概率、统计学和计算机科学 [ 6 ] 等许多学科相交叉的统一理论,信息论被用于研究各种系统中信息的提取、传输、处理和使用。香农的概念以及受其启发的概念构成了现代数字信息技术的基础 [ 5 ]。 20 世纪 60 年代,晶体学等实验方法的改进以及分子生物学方法在生物学分支学科的迅速扩展,使生物学家能够加深对各种现象的理解 [8],包括 RNA 密码的特征 [9]、蛋白质的结构 [10,11] 以及基因和蛋白质的进化 [10,12–14]。分子生物学的中心法则 [15] 是在 RNA 转录和翻译过程的基础性发现之后发展起来的。随着 20 世纪 60 年代计算机科学理论的出现和现代计算时代的到来,应用计算策略解决生物学问题,开创了计算生物学领域 [16]。计算方法在生物学问题上的早期应用包括进化的计算研究[17]和蛋白质结构[18],以及第一个序列比对算法的开发[19,20]。我们注意到,计算生物学有时与生物信息学[21-23]互换使用,尽管这些学科也经常以各种方式区分。我们做出以下区分:生物信息学致力于开发算法、数据库、软件工具和其他计算资源,以便对生物数据进行深入分析,包括其获取、存储、量化、注释、视觉探索和其他形式的处理 [ 23 ]。生物信息学项目的单个基于软件的产品通常可以广泛应用于解决各种生物学问题。作为对生物信息学范围的补充,计算生物学旨在