6. 成功登录后,您将进入此屏幕,从可用提供商 ID 中进行选择。注意:如果您在一个 OWCP Connect 登录下注册了多个提供商,或者您已作为用户添加到另一个提供商门户,则这些可用的提供商 ID 将在下拉菜单中可用。
引言:在过去的几十年里,机器学习从针对简单分类任务的(无)监督学习算法 [1-3] 发展到用于下围棋 [6] 和《星际争霸 II》[7] 的深度学习算法 [4,5]。通过使用标记数据进行调整,监督学习可以得到训练有素的分类或预测模型。然而,现实世界中的大多数数据都是未标记的,因此标记成本在化学/生物实验、工业破坏性测试等方面至关重要 [8,9]。与此同时,机器学习协议已经展示了其完成量子任务和研究量子系统特性的能力 [10-15]。这些协议已经应用于与量子信息检索相关的量子计量领域,利用强化学习 (RL) [ 16 ] 来控制测量过程的某些方面 [ 17 , 18 ]。我们还可以在科学文献 [ 19 ] 中找到用于测量控制的 RL 的量子版本 [ 20 , 21 ]。量子信息检索的关键问题是设计一个最优计划,使测量成本最小化,同时在没有明确定义奖励的情况下提取相关信息用于进一步的任务。主动学习 (AL) 基于这样一个假设:在一小组标记样本上训练的模型的表现可以与在所有样本都已标记的数据集中训练的模型一样好 [ 22 , 23 ]。因此,该框架非常适合解决上述关键信息问题的必要要求。简而言之,AL 考虑了标记成本,即测量造成的保真度损失。它分析最具信息量的模式(量子态),以提出保证最大知识增益的最少数量的标记(测量)。最近有研究建议将 AL 应用于量子信息 [ 24 ],采用 AL 的定义如下
本报告是作为由美国政府机构赞助的工作的帐户准备的。美国政府或其任何机构,也不是巴特尔纪念研究所,或其任何雇员,对任何信息,设备,产物或程序披露或代表其使用的任何法律责任或责任都没有任何法律责任或责任,或者对其使用的准确性,完整性或有用性都不会侵犯私人权利。以此处参考任何特定的商业产品,流程或服务,商标,制造商或以其他方式不一定构成或暗示其认可,建议或受到美国政府或其任何机构或Battelle Memorial Institute的认可,建议或赞成。本文所表达的作者的观点和观点不一定陈述或反映美国政府或其任何机构的观点和意见。
上下文。将外部大气的观察结果解释为限制物理和化学特性,通常是对贝叶斯检索技术进行的。由于这些方法需要许多模型计算,因此必须在模型的复杂性和运行时间之间做出妥协。实现这一折衷会导致许多物理和化学过程的简化(例如参数化温度结构)。目标。在这里,我们实施和测试顺序神经后估计(SNPE),这是一种用于系外行星的机器学习推理算法。目标是加快检索的速度,以便可以使用更昂贵的大气模型进行运行,例如那些使用辐射转移计算温度结构的模型。方法。我们使用外部科学(ARCIS)的精巧建模代码生成了100个合成观测,该代码是一种具有大气形的建模代码,具有远距离的功能,可以在不同程度的复杂性上计算模型,并在其上进行检索以测试SNPE后代的忠诚。忠诚量化了后者是否会像我们预期的那样经常包含地面真理。我们还使用Arcis的自洽功能对凉爽的棕色矮人进行了合成观察,并通过自洽模型进行了检索,以展示SNPE打开的可能性。结果。我们发现,SNPE提供了忠实的后代,因此是系外运动大气检索的可靠工具。我们已在GitHub上公开为社区公开使用代码。我们只能使用仅50 000个正向模型评估来运行合成棕色矮人光谱的自洽检索。我们发现,SNPE可以根据向前模型的计算负载,观察力的维度及其信噪比(S / N)加快〜2×和≥10倍之间的速度。
最近,已经提出了一种新颖的生成检索(GR)范式,其中学会了单个序列到序列模型直接生成有关查询的相关文档标识符(DOCID)列表。现有的GR模型通常采用最大似然估计(MLE)进行优化:这涉及给定输入查询的单个相关文档的可能性最大化,并假设每个文档的可能性独立于列表中的其他文档。我们将这些模型称为本文的重点方法。虽然在GR的背景下已显示出刻的方法有效,但由于其无视基本原则,即排名涉及对列表进行预测,因此被认为是最佳的。在本文中,我们通过引入替代列表方法来解决此限制,该方法赋予GR模型以优化DOCID列表级别的相关性。具体来说,我们将排名的DOCID列表的生成视为一个序列学习过程:在每个步骤中,我们都会学习一个参数子集,这些参数最大化了the -th docID的相应生成可能性,给定(前面)顶部𝑖 -1个文档。为了形式化序列学习过程,我们为GR设计了位置条件概率。为了减轻梁搜索对推断期间发电质量的潜在影响,我们根据相关性等级对模型生成的文档的生成可能性执行相关性校准。我们对代表性的二进制和多层相关性数据集进行了广泛的实验。我们的经验结果表明,在检索性能方面,我们的方法优于最先进的基准。
最近,已经提出了一种新颖的生成检索(GR)范式,其中学会了单个序列到序列模型直接生成有关查询的相关文档标识符(DOCID)列表。现有的GR模型通常采用最大似然估计(MLE)进行优化:这涉及给定输入查询的单个相关文档的可能性最大化,并假设每个文档的可能性独立于列表中的其他文档。我们将这些模型称为本文的重点方法。虽然在GR的背景下已显示出刻的方法有效,但由于其无视基本原则,即排名涉及对列表进行预测,因此被认为是最佳的。在本文中,我们通过引入替代列表方法来解决此限制,该方法赋予GR模型以优化DOCID列表级别的相关性。具体来说,我们将排名的DOCID列表的生成视为一个序列学习过程:在每个步骤中,我们都会学习一个参数子集,这些参数最大化了the -th docID的相应生成可能性,给定(前面)顶部𝑖 -1个文档。为了形式化序列学习过程,我们为GR设计了位置条件概率。为了减轻梁搜索对推断期间发电质量的潜在影响,我们根据相关性等级对模型生成的文档的生成可能性执行相关性校准。我们对代表性的二进制和多层相关性数据集进行了广泛的实验。我们的经验结果表明,在检索性能方面,我们的方法优于最先进的基准。
近年来,生成式检索已成为传统检索范式的一种颇具前景的替代方案。它为每个文档分配一个唯一的标识符(称为 DocID),并使用生成模型直接生成与输入查询相关的 DocID。DocID 通常选择一个或多个自然语言序列,例如标题、合成查询或 n-gram,以便有效地利用生成模型的预训练知识。然而,生成式检索是逐个标记生成的,每次解码时仅保留最可能的候选标记,其余标记则被剪枝。因此,如果相关 DocID 中的任何标记被错误地剪枝,检索就会失败。更糟糕的是,在解码过程中,模型只能感知 DocID 中前面的标记,而无法感知后面的标记,因此很容易出现此类错误。为了解决这个问题,我们提出了一种新颖的生成检索框架,称为术语集生成 (TSGen)。我们使用一组术语作为 DocID,而不是序列。这些术语是根据从相关性信号中学习到的权重来选择的,因此它们可以简明扼要地概括文档的语义并将其与其他文档区分开来。在术语集 DocID 的基础上,我们提出了一种排列不变的解码算法,使用该算法,可以以任何排列生成术语集,但始终会指向相应的文档。值得注意的是,TSGen 在每个解码步骤中都会感知所有有效术语,而不仅仅是前面的术语。鉴于解码空间恒定,它可以从更广阔的视角做出更可靠的决策。TSGen 也具有很强的错误抵御能力:只要解码的
https://doi.org/10.5194/egusphere-2024-1568预印本。讨论开始:2024年6月14日C⃝作者2024。cc by 4.0许可证。
摘要。卫星 NO 2 数据在空气质量研究中的应用日益表明,需要进行具有更高空间和时间分辨率的观测。NO 2 昼夜循环研究、全球郊区观测和排放点源识别是一些重要应用的例子,而这些应用无法在现有仪器提供的分辨率下实现。提高空间分辨率的一种方法是减少检索所需的光谱信息,从而允许使用传统 2-D 探测器的两个维度来记录空间信息。在这项工作中,我们研究了使用 10 个离散波长和成熟的差分光学吸收光谱 (DOAS) 技术来检索 NO 2 斜柱密度 (SCD)。为了测试这个概念,我们使用了来自世界各地不同地区的单个 OMI 和 TROPOMI 1B 级扫描带,这些扫描带既包含清洁区域,也包含严重污染区域。为了离散化数据,我们模拟了一组以 NO 2 吸收截面的各个关键波长为中心的高斯光学滤波器。我们使用 DOAS 算法的简单实现对离散数据进行 SCD 检索,并将结果与相应的 2 级 SCD 产品(即 OMI 的 QA4ECV 和 TROPOMI 业务产品)进行比较。对于 OMI,我们离散波长检索的总体结果与 2 级数据非常吻合(平均差异 < 5 %)。对于 TROPOMI,一致性很好(平均差异 < 11 %),由于其信噪比更高,不确定性较低。这些差异主要可以通过检索图像的差异来解释