喂它。为了产生准确的结果,我们需要为其提供大量数据,但也需要尽可能多样化的数据。例如,如果我们创建语音识别程序,您可能想使用大量单词,但也需要使用不同的口音或语音类型。例如,如果我们只喂男人说的话,那么它可能难以理解女性。
自 2015 年春季以来,ALICE 已成功收集了第 2 次运行的物理数据。与此同时,正在为名为 O2(在线-离线)的重大升级做准备,该升级计划于 2019-2020 年的长期停机 2 中进行。主要要求之一是能够在配备读出卡的所谓 FLP(第一级处理器)和 EPN(事件处理节点)之间传输数据,执行数据聚合、框架构建和部分重建。预计将有 268 个 FLP 将数据调度到 1500 个 EPN,每个的平均输出为 20 Gb/s。总体而言,O2 处理系统将以每秒兆兆位的吞吐量运行,同时处理数百万个并发连接。为了满足这些要求,需要对新系统的软件和硬件层进行全面评估。
大多数小型卫星操作(包括立方体卫星社区中的操作)都会最大化与地面站的单次通信持续时间,但这样做并不能最大化传输的总数据量。在本文中,我们研究了通过等待以非直观的高仰角开始传输来最大化数据下载的方法。此仰角缩短了倾斜距离,并允许以更高的固定数据速率关闭链路。虽然传输时间较短,但下载的总数据量较大。我们针对各种通道配置检查了这种方法,并将其与世界各地已知地面站的通道分布进行了比较。本研究的结果(分析和数值)与最大化给定卫星轨道传输数据量的策略建议一起呈现。这些方法依赖于在轨时改变无线电数据速率的能力,这通过使用灵活速率无线电来实现。我们通过检查一年内单个地面站的传输数据量来扩展这项研究。结果表明,可以找到最佳固定数据速率,从而使全年下载的数据量最大化。最后,为小型卫星社区提供了无线电开发建议。
人工神经网络已成为人类语言处理的计算上可行的模型。对这些模型的一个主要批评是,它们接收的训练数据量远远超过人类在语言学习过程中接收的数据量。在这里,我们使用两种互补的方法来探究训练数据量如何影响模型捕捉人类对句子的 fMRI 反应的能力。首先,我们根据 fMRI 基准评估了用 100 万、1000 万、1 亿或 10 亿个单词训练的 GPT-2 模型。我们认为 1 亿个单词的模型在训练数据量方面在发展上是可行的,因为这个数量与儿童在生命的前 10 年估计接触到的数据量相似。其次,我们测试了在 90 亿个标记数据集上训练的 GPT-2 模型的性能,以在训练的不同阶段达到人类基准上最先进的下一个单词预测性能。通过这两种方法,我们发现:(i) 在发展上可行的数据量上训练的模型在捕捉句子的 fMRI 反应方面已经实现了接近最大的性能。此外,(ii) 较低的困惑度(衡量下一个单词预测性能的指标)与与人类数据的更强的一致性相关,这表明经过足够训练以实现足够高的下一个单词预测性能的模型也会获得可以预测人类 fMRI 反应的句子表征。同时,这些发现表明,尽管一些训练对于模型的预测能力是必要的,但发展上可行的训练量(约 1 亿个单词)可能就足够了。
讨论了使用定向能发射的探测器对附近恒星系统进行飞越调查的任务场景设计。使用固定发射基础设施发射多个探测器,在目标相遇和数据收集后下载科学数据。假设主要目标是以较小的数据延迟(从发射到完全恢复数据所用的时间)可靠地恢复大量收集的科学数据,结果表明存在一个有效边界,在给定延迟的情况下无法增加数据量,在给定数据量的情况下无法减少延迟。对于每次探测器发射,增加此边界上的数据量是通过增加探测器质量来实现的,这会导致探测器速度降低。因此,选择最高可行探测器速度通常无法实现数据量和延迟之间的有效权衡。沿着此边界,到完成数据下载所经过的总距离变化不大,这意味着下载时间大约是发射到目标传输时间的固定比例。由于探测器质量增加时推进时间更长,因此增加数据量会导致发射总能量消耗增加,但具有良好的规模经济效益。任何探测器技术的一个重要特征是将探测器质量与传输数据速率联系起来的缩放定律,因为这会影响有效边界的细节。
分析和学习时空数据集是许多领域的重要过程,包括交通运输、医疗保健和气象学。特别是,环境中的传感器收集的数据使我们能够理解和模拟环境中的过程。最近,收集的时空数据量显著增加,给数据科学家带来了一些挑战。因此,需要采取措施减少需要处理的数据量,以便分析和学习时空数据集。在本文中,我们提出了 k 维时空缩减方法 (k D-STR),以减少用于存储数据集的数据量,同时允许对缩减后的数据集进行多种类型的分析。k D-STR 使用分层分区来查找相似实例的时空区域,并对每个区域内的实例进行建模以汇总数据集。我们用 3 个表现出不同时空特征的数据集证明了 k D-STR 的通用性,并展示了一系列数据建模技术的结果。最后,我们将 k D-STR 与其他减少时空数据量的技术进行了比较。我们的结果表明,k D-STR 可以有效减少时空数据,并可以推广到具有不同属性的数据集。
数据量大幅增长,且数据来源不断变化。5G 移动基础设施的推出是技术进步之一,据称该技术可以促进物联网 (IoT) 的发展,从而带来数据量的大幅增长。然而,我们的同事进行的研究指出了 5G 实施的障碍,尤其是运营商的经济效益。此外,在 2019 年的一项调查中,运营商报告称,他们并不认为物联网是 5G 的核心目标,因为现有的物联网功能可能足以满足大多数用例的需求。因此,5G 本身似乎不太可能成为增加数据量的主要转折点,也不太可能成为随后训练数据的推动者。大多数好处可能已经显现。
分析和学习时空数据集是许多领域的重要过程,包括交通运输、医疗保健和气象学。特别是,环境中的传感器收集的数据使我们能够理解和模拟环境中的过程。最近,收集的时空数据量显著增加,给数据科学家带来了一些挑战。因此,需要采取措施减少需要处理的数据量,以便分析和学习时空数据集。在本文中,我们提出了 k 维时空缩减方法 ( k D-STR ),以减少用于存储数据集的数据量,同时允许对缩减后的数据集进行多种类型的分析。 k D-STR 使用分层分区来查找相似实例的时空区域,并对每个区域内的实例进行建模以总结数据集。我们用三个表现出不同时空特征的数据集证明了 k D-STR 的通用性,并展示了一系列数据建模技术的结果。最后,我们将 k D-STR 与其他减少时空数据量的技术进行了比较。我们的结果表明,k D-STR 可有效减少时空数据,并可推广到具有不同属性的数据集。