当数学界有人提出数学主张时,通常可以正式地表达该主张,也就是说,逻辑上熟练且动机充分的数学家可以达成一致,正式主张表达了相关的定理。人们通过证明来证明非正式主张,如果证明是正确的,那么经过足够的工作就可以将其转化为正式推导。相反,正式推导足以证明非正式主张的合理性。因此,非正式数学陈述是定理,当且仅当其正式对应物具有正式推导时。无论阅读证明的数学家是否会用这些术语来描述事态,对正确性的判断都等同于对正式推导存在的判断,无论数学家采用什么样的心理过程,只要它们跟踪对应关系,它们都是可靠的。(Avigad,2021 年,第 7379 页)
对Ma-Chine阅读理解(MRC)中生成模型的评估带来了不同的困难,因为Bleu,Rouge,Meteor,Ectect匹配和F1得分等传统指标通常很难捕获细微的和多样化的响应。虽然嵌入基于Bertscore和Bartscore之类的基于基于的指标专注于语义相似性,但它们仍然无法完全解决诸如识别附加有用的信息和奖励忠诚的方面。基于大语言模型(LLM)指标的最新进展提供了更多细粒度的评估,但仍然存在分数聚类等挑战。本文介绍了一个多相关的评估框架,chie,结合了c orcretness,h Elpullness,i rrelevance and e extranesents的各个方面。我们的方法使用二进制分类值而不是连续的评分量表,与人类判断良好,表明其潜力是一种全面有效的评估方法。
摘要 - 机器学习模型被广泛使用,但通常也可能是错误的。用户将受益于可靠的指标,即是否应信任给定模型的给定输出,因此可以做出合理决策是否使用输出。例如,输出可以与置信度度量相关联;如果这种置信度度量与正确性的可能性密切相关,则据说该模型是良好校准的。良好的置信度措施可以作为理性,逐步决策的基础,以了解使用生成的代码时需要多少审查和护理。校准已经在主要非生成中进行了研究(例如,分类)设置,尤其是在软件工程中。但是,生成的代码通常可能是错误的:给定的代码,开发人员必须决定是否直接使用,在仔细审查强度变化或丢弃模型生成的代码后使用。因此,卡尔 - 对生成环境至关重要。我们做出了一些贡献。我们开发了一个框架来评估代码生成模型的校准。我们考虑了几个任务,正确性标准,数据集和方法,并发现我们测试的大而生成的代码模型并未得到很好的开箱即用。然后,我们展示如何使用标准方法(例如PLATT缩放)改进校准。我们的贡献将在语言模型生成的当前使用代码中提供更好地校准的决策,并为将来的研究提供了一个框架,以进一步改善软件工程中生成模型的校准方法。由于Platt缩放率取决于正确性数据的事先可用性,因此我们评估了PLATT缩放在软件工程中的适用性和概括性,讨论其具有良好实际使用潜力的设置以及不存在的设置。索引项 - LLS,校准,置信度度量
本文结构如下。我们的主要技术结果是定理 2.18,它表明与推论 1.5 中的格 L 类似的格 L 具有高概率的短向量基。使用简单的数几何(参见第 2.5 节),我们将这个问题简化为估计半径不断增长的球中的格点数。不幸的是,我们无法直接获得合适的 L 格点数。我们通过从论证一开始就考虑不同的格 LM 来解决这个问题(使用第 2.2 节中的引理)。在第 2.3 节中,我们根据模 N 的狄利克雷特征展开 LM 的格点数。这会产生一个可以精确估计的主项和一个误差项。证明的核心在于使用模 N 的狄利克雷特征的零密度估计来无条件地限制这个误差项。最后,我们在第 3 节中证明了我们的量子算法应用(定理 1.1 和 1.2)。
我们提出了一种新型最弱的微积分,用于对非确定性和概率程序的定量超普罗代理进行推理。现有的计算允许对数量从单个初始状态终止后假定的预期值进行推理,但我们这样做是为初始状态或初始概率分布的集合。因此,我们(i)获得了高hoare逻辑的最弱的前计算,(ii)启用有关所谓的高素质的推理,包括预期值但也包括数量(例如,差异)以前的工作范围。作为副产品,我们为加权程序获得了一个新颖的最强帖子,该职位既扩展了现有的最强和最强的自由主义后的计算。我们的框架揭示了前向和向后变压器之间的新颖二元性,正确性和不正确性以及不终止和不可收拾。
州立大学使用人工智能软件 Hephaestats 分析通过手机应用程序收集的学生数据。利用这些数据,该软件确定了关键指标,这些指标结合起来可以预测学生是否会辍学,准确率高达 94%。辍学原因多种多样,从可预测的管理问题(例如,课程过于雄心勃勃或不合适的组合)到外部因素(例如,平衡工作与学业、家庭责任)。管理部门使用 Hephaestats 提供的信息来调整校园环境的某些方面,以推动学生改善行为。例如,顾问鼓励学生更换课程,使他们的时间表更易于管理。Hephaestats 还向教师提供了高危学生的资料,帮助他们更好地了解个别学生可能遇到困难的原因,并提出有针对性的帮助方法。
实时系统容易受到诸如故障和攻击的对抗性因素的影响,从而导致严重的后果。本文提出了一个最佳检查点方案,以增强实时系统中的故障弹性,从而解决了逻辑一致性和定时正确性。首先,我们根据其依赖项将消息传递过程分配到有向的无环图(DAG)中,从而确保检查点逻辑一致性。然后,我们识别DAG的临界路径,代表最长的顺序路径,并沿此路径分析最佳检查点策略,以最大程度地减少整体执行时间,包括检查点开销。故障检测后,系统将回到最近的有效检查点以进行恢复。我们的算法得出了最佳检查点计数和间隔,我们通过大量的模拟和案例研究评估其性能。结果表明,与模拟和案例研究中的无检查点系统相比,执行时间减少了99.97%和67.86%。此外,我们提出的策略优于先前的工作和基线方法,对于小规模任务,截止日期的成就率提高了31.41%和2.92%,大规模任务的截止日期率和78.53%和4.15%。
在人工智能辅助决策中,人类决策者知道何时信任人工智能以及何时信任自己至关重要。然而,先前的研究仅基于表明人工智能正确性可能性 (CL) 的人工智能置信度来校准人类信任,而忽略了人类的 CL,从而阻碍了最佳团队决策。为了弥合这一差距,我们提出在任务实例级别基于双方的 CL 来促进人类适当的信任。我们首先通过近似人类的决策模型并计算他们在类似情况下的潜在表现来建模人类的 CL。我们通过两项初步研究证明了我们模型的可行性和有效性。然后,我们提出了三种 CL 利用策略来在人工智能辅助决策过程中显式/隐式地校准用户的信任。一项受试者间实验 (N=293) 的结果表明,与仅使用人工智能置信度相比,我们的 CL 利用策略可以促进人类对人工智能更合适的信任。我们进一步为更人性化的人工智能辅助决策提供了实际意义。