获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
现代时代目睹了将构造扩展到大型数据集的能力的革命。可伸缩性的关键突破是引入快速且易于使用的分布式编程模型,例如MapReduce(Dean和Ghemawat,2008年),Hadoop(Hadoop.apache.org)和Spark(Spark.apache.org)。我们将这些编程模型称为大规模并行框架。大规模并行框架最初是针对相对简单的计算类型设计的,例如计算数据集中的单词频率。从那以后,它们被证明对更丰富的应用程序非常有用。最近的工作目的是以释放其真正的潜在力量并扩大其适用性来研究这些框架算法。希望通过算法研究,取得与诸如合规算法等主题相似的成功(Frigo等人。,2012年)和数据流算法(McGregor,2014年)。实际上,大量分布式框架使程序员能够轻松地将算法在数十万台上部署到数千台机器。算法,这些框架对其计算表达能力有限制,以帮助确保程序有效地平行。