《行星因果推断》一书探讨了地球观测 (EO) 数据如何增强社会科学研究,加深我们对人类对环境、社会和经济影响的理解。虽然使用调查和国家统计数据的传统方法成本高昂且有限,但来自卫星的 EO 数据为以精细分辨率研究城市化、贫困、冲突和森林砍伐等现象提供了全球实时视角。本书介绍了以因果为导向的基于 EO 的机器学习 (ML),其中分析图像中的空间数据以创建社会科学指标的代理并用于因果推断。这些行星因果推断方法可以为全球社会问题提供高分辨率洞察,为评估冲突、可持续发展和其他现象提供新方法。通过结合地理、历史和多尺度分析的见解,“行星因果推断”为研究人员提供了基础,以解决家庭、社区、区域和全球尺度的综合问题。本书的“成分”和“食谱”食谱式框架使社会科学家能够采用 EO-ML 方法,开发自己的研究方法,并解决全球范围内的紧迫问题。
摘要。机器学习应用程序获得了越来越多的访问高度敏感的信息,同时需要越来越多的计算资源。因此,需要将这些计算昂贵的任务外包,同时仍确保数据的安全性和机密性是迫在眉睫的。在他们的开创性工作中,Tramèr和Boneh提出了激流回旋方案,用于隐私 - 通过将计算分为独立于数据的预处理阶段和非常有效的在线阶段来保存推断。在这项工作中,我们提出了一种新方法,可以通过引入狂欢节协议来显着加快预处理阶段。狂欢节利用子集总和问题的伪随机性也可以在预处理阶段实现有效的外包。除了证明安全性外,我们还包括一项经验研究,分析了针对较小参数的子集总和函数输出均匀性的格局。我们的发现表明,狂欢节是现实世界实施的绝佳候选人。
当前物联网的情况正在见证数据量的不断增加,该数据量是在恒定流中生成的,呼吁新颖的架构和逻辑解决方案来处理它。将数据处理转移到计算频谱的边缘可确保负载的更好分配,并且在原理中,较低的潜伏期和更好的隐私性。但是,管理这种结构很复杂,尤其是当要求(SLOS)的要求(SLO)(SLO)需要确保由应用程序的所有者和基础架构经理指定时。尽管基于机器学习(ML)的管理解决方案,研究人员和从业人员有大量提案,但仍在努力进行长期预测和控制以及准确的故障排除。因此,我们提出了一种基于主动推理(AIF)的新型ML范式 - 神经科学的概念描述了大脑如何不断预测和评估感觉信息以减少长期惊喜。我们在异质的真实流处理用例中实现并进行评估,其中基于AIF的代理商不断优化了在多个设备上运行的三个自动驾驶服务的三个SLO的实现。代理使用因果知识逐渐了解其行为与要求满足以及哪些配置有偏爱的理解。通过这种方法,我们的代理需要三十次迭代才能收敛到最佳解决方案,
描述观察到的数据与其估计的潜在变量之间的关联测试。JackStraw软件包提供了一种重采样策略和测试方案,以估计观察到的数据及其潜在变量之间关联的重要性。取决于数据类型和分析目的,潜在变量可以通过主体分析(PCA),因子分析(FA),K-均值聚类以及相关的无监督学习算法来估算。jackstraw方法学习了本循环分析中固有的过度拟合特征,在该特征中,观察到的数据用于估计潜在变量,并再次用于测试估计的潜在变量。当PCA估算潜在变量时,JackStraw可以通过低维主组件(PC)估计,可观察到的变量和潜在变量之间的统计测试对观察到的变量和潜在变量之间的关联。这一范围内导致识别与PC显着相关的变量。同样,诸如K-均值聚类,围绕MEDOIDS(PAM)和OTHERS的诸如K-均值聚类和others的无关聚类,在高维数据中找到相干组。通过测试数据和群集中心之间的关联,JackStraw估计了集群成员资格的统计意义。聚集成员身份,并应用于对Single细胞RNA-Seq(SCRNA-SEQ)中细胞身份的无监督评估。
种群渐近学在定理1.1的结果上是有价值的:它在最小的假设下提供了无偏见的结果,尤其是对潜在结果的分布假设。实际上,这意味着我们可以应用定理1.1,而无需对n个研究参与者的招聘方式提出任何要求。然而,该结果的局限性在于它没有表征采样误差ˆτdm-∆,因此并未直接提供对稳定推断的路线图。为了取得进步,我们在这里做出了一个假设,即研究参与者(即形式上,潜在结果对{y i(0),y i(1)})是从人口p中独立得出的。这样的种群采样假设,然后通过标准的大样本分析实现直接的分布结果和置信间隔。也可以在不进行此类抽样的情况下获得分配结果,但这样做依赖于我们目前不会追求的专业统计技术;我们将重新访问本章末尾和第12章中的书目注释中推断书目注释的无种群采样方法。
摘要 - 多机器人同时本地化和映射(SLAM)使机器人团队通过依靠环境的共同地图来实现协调的任务。通过对机器人观测的集中处理来构建地图是不可取的,因为它会产生单个失败点并重新存在预先存在的基础架构和显着的通信吞吐量。本文将多机器人对象猛击制定为通信图上的变异推理问题,受不同机器人主导的对象估计的共识约束。为了解决该问题,我们开发了一种分布式的镜面下降算法,并在通信机器人之间实施了正则化的共识。使用算法中的高斯分布,我们还为多机器人对象大满贯提供了分布式多状态约束Kalman滤波器(MSCKF)。对真实和模拟数据的实验表明,与单个机器人大满贯相比,我们的方法改善了轨迹和对象估计,同时与集中的多机器人大满贯相比,在大型机器人团队中实现更好的缩放。
由卷积神经网络激励的深度学习在一系列医学成像问题(例如图像分类,图像分割,图像合成等)中非常成功。但是,对于验证和可解释性,我们不仅需要模型做出的预测,而且还需要在做出这些预测时它的自信。这对于人民接受安全的关键应用很重要。在这项工作中,我们使用了基于变异推理技术的编码器解码器结构来分割脑肿瘤图像。我们使用骰子相似性系数(DSC)和联合(IOU)的交集作为评估指标,评估公开可用的Brats数据集的工作。我们的模型能够以原则上的贝叶斯方式考虑脑肿瘤,同时考虑到疾病的不确定性和认知不确定性。
摘要 - 生成大语言模型(LLM)的快速发展和广泛采用使它们成为各种应用程序中的关键工作量。今天,LLM推理群集会收到大量具有严格服务级别目标(SLO)的查询。为了达到所需的性能,这些模型在渴望的GPU上执行,从而导致Interence簇消耗大量能量,并且因此导致过多的碳发射。幸运的是,我们发现有一个很好的机会来利用推理计算属性和推理工作载荷中的波动的异质性,以显着提高能源效率。但是,如此多样化且动态的环境在不同的系统配置中创建了一个较大的搜索空间(例如,,实例数量,模型并行性和GPU频率)转化为不同的绩效权衡。为了应对这些挑战,我们提出了Dynamollm,这是LLM推理环境的第一个能源管理框架。dynamollm会自动,动态地重新配置推理群集,以优化服务性能SLO下的LLM服务的能量和成本。我们表明,在服务级别,Dynamollm可以保留53%的能源和38%的运营碳排放,并在满足潜伏期SLOS的同时,为客户降低了61%的成本。
潜在扩散模型(LDMS)的最新进步已将它们置于各种生成任务的最前沿。但是,它们的迭代采样过程构成了重大的计算负担,从而导致生成速度缓慢,并限制了其在文本到审计生成部署中的应用。在这项工作中,我们介绍了AudiolCM,这是一种基于一致性的新型模型,该模型量身定制,专门针对高效和高质量的文本发电。与以前通过迭代过程解决噪声删除的方法不同,AudiolCM将一致性模型(CMS)集成到生成过程中,从而通过从任何时间步长到轨迹的初始点的任何点映射来促进快速推断。过度提出了LDMS固有的收敛性问题,并减少了样品迭代,我们提出了带有多步骤的普通微分方程(ODE)求解器的引导潜在一致性蒸馏。这项创新将时间表从数千个步骤缩短到数十个步骤,同时保持样本质量,从而实现快速的收敛和高质量的生成。此外,为了优化基于变形金刚的神经网络体系结构的性能,我们将Llama率先启用的先进技术集成到变压器的基础框架中。该体系结构支持稳定,有效的培训,以确保文本与原告合成中的稳健性能。关于文本到审计生成和文本到音乐综合任务的实验结果表明,Audiolcm仅需要2个迭代即可合成高保真音频,而它可以保持样本质量与最新的