● 模型训练:在训练模型之前,读取 (2) 生成的特征并进行预处理。例如,如果需要,对数据进行归一化,并根据可用数据量按比例拆分为训练、验证和测试数据集。模型训练完成后,将与 model.json 文件一起存储 (3),该文件包含有关训练模型的相关信息,例如每个隐藏层的神经元数量、隐藏层数量、使用的变量(后拟合残差、SNR 等)等。● 批量推理:模型训练完成后,可以通过加载保存的模型 (3) 并对新的 GNSS 数据执行推理过程将其部署到生产中。
卫星对地观测 (EO) 提供各种不同类型的环境信息,这些信息具有全球性、全面性、准确性、可重复性和及时性,是有效规划和实施发展援助活动的关键。此外,欧洲拥有世界领先的对地观测能力;无论是在太空任务方面(欧盟哥白尼、欧空局、欧洲气象卫星组织、欧洲国家任务),还是在下游地理信息部门提供的各种专业产品和服务方面。特别是,哥白尼标志着地球观测新时代的开始,现在正在发射的哨兵卫星是运营环境信息服务的基础,其数据量空前,数据将长期持续到 2030 年及以后。
现在,我并不是神经网络或其他形式的人工智能领域的专家。相反,作为一名天文学家和物理学家,我以用户的身份来讨论这个话题。随着望远镜技术的进步,尤其是电子探测器的进步以及处理这些探测器信号的方式,天文学现在正被“大数据”淹没……数据量如此之大,以至于我们以前处理结果的方式根本行不通了。(我年纪大了,还记得我们曾经很高兴能有任何数据!)相反,我们依靠巧妙的计算算法(我没有参与编写)来筛选我们观察到的东西。该算法可能表明一个物体可能是 X 射线源,另一个物体可能是行星形成的地点,等等。
“释放大数据的力量:用于增强分析的创新预处理方法”是一章开创性的章节,探讨了预处理在大数据分析中的关键作用。它介绍了将原始的非结构化数据转换为干净的可分析格式的各种技术,解决了数据量、速度和多样性带来的挑战。本章强调了预处理对于准确结果的重要性,介绍了高级数据清理、集成和转换技术,并讨论了实时数据预处理、新兴技术和未来方向。本章是研究人员和从业人员的综合资源,使他们能够增强数据分析并从大数据中获得有价值的见解。
毫不夸张地说,云计算已成为这个国家乃至全世界不可或缺的资源。许多公司、政府机构甚至一些国家都依赖这种基础设施来运行其关键业务,例如为客户和公民提供基本服务。在生产力、效率和成本效益的推动下,这些服务的采用在过去十年中猛增,在某些情况下,它们已经变得像电力一样不可或缺。因此,云服务提供商 (CSP) 已成为几乎难以想象的数据量的保管者。从美国人的个人信息到美国外交官和其他高级政府官员的通信,以及商业贸易机密和知识产权,现在都存储在地理分布的数据中心中,这些数据中心构成了现在世界所称的“云”。
生成人工智能的最新进展和机器学习所采用的技术表明,它与人类的学习机制类似。学生从老师和环境中学习。他们以过去的天才为榜样,无法忽视在逐渐获得技能过程中所受到的影响。因此,创作行为永远不会从一张白纸开始。通过分析和吸收现有作品,机器遵循类似的路径。然而,这种类比很快就达到了极限。事实上,机器摄取的数据量以及收集和吸收这些数据的速度与人类思维的能力不相称。这是一个新的范式,在这一点上,它与人类的知识获取过程截然不同。
• 使用卫星数据可以提供有关可能影响金融市场的各种经济和环境因素的独特实时信息。对卫星图像的分析可以揭示资源开采区、农业、建筑甚至购物中心交通的活动,从而提供经济表现的早期指标。 • 使用深度学习和生成式人工智能可以提供数据驱动的洞察力,揭示大数据量(卫星和网络)上的趋势、相关性和机会。这使交易者能够快速响应市场变化。 • 使用 GPU 处理和分析来自卫星图像和网络的大量数据可以制定实时交易策略。这种方法可以有效且可持续地利用计算资源,从而进行更快、更准确的分析以指导交易决策。
我们还提供了关于不同类型的人工智能和机器学习的入门指南,以及如何将它们与健康数据结合使用以解决医疗保健系统面临的挑战。目前,围绕人工智能的大部分讨论都倾向于关注机器学习方法。这是因为可用的数据量巨大,而计算能力同样强大,因此机器学习算法可以识别超出人类计算能力的数据趋势。然而,还有许多其他技术构成了人工智能和机器学习方法系列,因此了解可用的全部范围非常重要。虽然本报告中提供的入门指南绝不是所有人工智能和机器学习方法的完整汇编,但我们希望它能为读者提供当前和潜在机会的广度以及进一步阅读的指引。