我们提出了一种新型最弱的微积分,用于对非确定性和概率程序的定量超普罗代理进行推理。现有的计算允许对数量从单个初始状态终止后假定的预期值进行推理,但我们这样做是为初始状态或初始概率分布的集合。因此,我们(i)获得了高hoare逻辑的最弱的前计算,(ii)启用有关所谓的高素质的推理,包括预期值但也包括数量(例如,差异)以前的工作范围。作为副产品,我们为加权程序获得了一个新颖的最强帖子,该职位既扩展了现有的最强和最强的自由主义后的计算。我们的框架揭示了前向和向后变压器之间的新颖二元性,正确性和不正确性以及不终止和不可收拾。
摘要 - 机器学习模型被广泛使用,但通常也可能是错误的。用户将受益于可靠的指标,即是否应信任给定模型的给定输出,因此可以做出合理决策是否使用输出。例如,输出可以与置信度度量相关联;如果这种置信度度量与正确性的可能性密切相关,则据说该模型是良好校准的。良好的置信度措施可以作为理性,逐步决策的基础,以了解使用生成的代码时需要多少审查和护理。校准已经在主要非生成中进行了研究(例如,分类)设置,尤其是在软件工程中。但是,生成的代码通常可能是错误的:给定的代码,开发人员必须决定是否直接使用,在仔细审查强度变化或丢弃模型生成的代码后使用。因此,卡尔 - 对生成环境至关重要。我们做出了一些贡献。我们开发了一个框架来评估代码生成模型的校准。我们考虑了几个任务,正确性标准,数据集和方法,并发现我们测试的大而生成的代码模型并未得到很好的开箱即用。然后,我们展示如何使用标准方法(例如PLATT缩放)改进校准。我们的贡献将在语言模型生成的当前使用代码中提供更好地校准的决策,并为将来的研究提供了一个框架,以进一步改善软件工程中生成模型的校准方法。由于Platt缩放率取决于正确性数据的事先可用性,因此我们评估了PLATT缩放在软件工程中的适用性和概括性,讨论其具有良好实际使用潜力的设置以及不存在的设置。索引项 - LLS,校准,置信度度量
本文结构如下。我们的主要技术结果是定理 2.18,它表明与推论 1.5 中的格 L 类似的格 L 具有高概率的短向量基。使用简单的数几何(参见第 2.5 节),我们将这个问题简化为估计半径不断增长的球中的格点数。不幸的是,我们无法直接获得合适的 L 格点数。我们通过从论证一开始就考虑不同的格 LM 来解决这个问题(使用第 2.2 节中的引理)。在第 2.3 节中,我们根据模 N 的狄利克雷特征展开 LM 的格点数。这会产生一个可以精确估计的主项和一个误差项。证明的核心在于使用模 N 的狄利克雷特征的零密度估计来无条件地限制这个误差项。最后,我们在第 3 节中证明了我们的量子算法应用(定理 1.1 和 1.2)。
当数学界有人提出数学主张时,通常可以正式地表达该主张,也就是说,逻辑上熟练且动机充分的数学家可以达成一致,正式主张表达了相关的定理。人们通过证明来证明非正式主张,如果证明是正确的,那么经过足够的工作就可以将其转化为正式推导。相反,正式推导足以证明非正式主张的合理性。因此,非正式数学陈述是定理,当且仅当其正式对应物具有正式推导时。无论阅读证明的数学家是否会用这些术语来描述事态,对正确性的判断都等同于对正式推导存在的判断,无论数学家采用什么样的心理过程,只要它们跟踪对应关系,它们都是可靠的。(Avigad,2021 年,第 7379 页)
实时系统容易受到诸如故障和攻击的对抗性因素的影响,从而导致严重的后果。本文提出了一个最佳检查点方案,以增强实时系统中的故障弹性,从而解决了逻辑一致性和定时正确性。首先,我们根据其依赖项将消息传递过程分配到有向的无环图(DAG)中,从而确保检查点逻辑一致性。然后,我们识别DAG的临界路径,代表最长的顺序路径,并沿此路径分析最佳检查点策略,以最大程度地减少整体执行时间,包括检查点开销。故障检测后,系统将回到最近的有效检查点以进行恢复。我们的算法得出了最佳检查点计数和间隔,我们通过大量的模拟和案例研究评估其性能。结果表明,与模拟和案例研究中的无检查点系统相比,执行时间减少了99.97%和67.86%。此外,我们提出的策略优于先前的工作和基线方法,对于小规模任务,截止日期的成就率提高了31.41%和2.92%,大规模任务的截止日期率和78.53%和4.15%。
在人工智能辅助决策中,人类决策者知道何时信任人工智能以及何时信任自己至关重要。然而,先前的研究仅基于表明人工智能正确性可能性 (CL) 的人工智能置信度来校准人类信任,而忽略了人类的 CL,从而阻碍了最佳团队决策。为了弥合这一差距,我们提出在任务实例级别基于双方的 CL 来促进人类适当的信任。我们首先通过近似人类的决策模型并计算他们在类似情况下的潜在表现来建模人类的 CL。我们通过两项初步研究证明了我们模型的可行性和有效性。然后,我们提出了三种 CL 利用策略来在人工智能辅助决策过程中显式/隐式地校准用户的信任。一项受试者间实验 (N=293) 的结果表明,与仅使用人工智能置信度相比,我们的 CL 利用策略可以促进人类对人工智能更合适的信任。我们进一步为更人性化的人工智能辅助决策提供了实际意义。
对Ma-Chine阅读理解(MRC)中生成模型的评估带来了不同的困难,因为Bleu,Rouge,Meteor,Ectect匹配和F1得分等传统指标通常很难捕获细微的和多样化的响应。虽然嵌入基于Bertscore和Bartscore之类的基于基于的指标专注于语义相似性,但它们仍然无法完全解决诸如识别附加有用的信息和奖励忠诚的方面。基于大语言模型(LLM)指标的最新进展提供了更多细粒度的评估,但仍然存在分数聚类等挑战。本文介绍了一个多相关的评估框架,chie,结合了c orcretness,h Elpullness,i rrelevance and e extranesents的各个方面。我们的方法使用二进制分类值而不是连续的评分量表,与人类判断良好,表明其潜力是一种全面有效的评估方法。
或网站。尽管我们尽一切努力确保我们控制的信息的正确性和适用性,并纠正引起我们注意的任何错误,但我们无法对该信息或任何提供、引用或暗示的链接信息的正确性或适用性做出任何陈述或保证。
或网站。尽管我们尽一切努力确保我们控制的信息的正确性和适用性,并纠正引起我们注意的任何错误,但我们无法对该信息或任何提供、引用或暗示的链接信息的正确性或适用性做出任何陈述或保证。
摘要 - 由于国家标准技术研究所(US)选择了Quantum Crypto System Crystals Crystals Crystals-Kyber,因此对其正确性和安全性的正式验证变得更加相关。使用自动定理示意剂isabelle,我们能够正式化Kyber公共密钥加密方案的算法规范和参数集,并在选择的明文攻击属性下验证δ-正确性和不可区分性。但是,在形式化过程中,发现了笔和纸证明中的几个差距。除了一个差距δ的差距外,所有差距都可以填写。在较小维度中的计算给出了示例,其中绑定δ小于实际误差项,违反了正确性属性。可以正式将正确性证明与模块学习的应用有关,因此我们认为原始错误绑定和形式化版本的差异相对较小。因此,可以将正确性形式化,直到对界限的最小变化。索引术语 - post-Quantum加密,晶体 - Kyber,数字理论转换,安全性,验证,iSabelle。