置信

2025-01-05 机构名称:

置信区域 (ZOC) 图 11539OG

飓风、热带风暴和其他大型风暴可能会对海洋建筑物、航标和系泊船只造成相当大的破坏，导致残骸沉入未知位置。海图上的水深、航道深度和海岸线可能无法反映风暴过后的实际情况。固定航标可能已损坏或被毁坏。浮标可能已从其海图位置移开、损坏、沉没、熄灭或因其他原因而失效。海员不应依赖航标的位置或操作。沉船和水下障碍物可能已从海图位置移开。管道可能已暴露或移动。海员应极其谨慎，并要求向最近的美国海岸警卫队单位报告航标差异和航行危险。

查看详细

File

2025-02-21 机构名称:

框置信深度：基于模拟的推理超矩形

在许多科学领域中，研究人员面临评估复杂统计模型的挑战，即可能的计算函数在计算上是棘手的，或者非常昂贵的计算。这导致了无似然推理方法的发展和日益普及，这为参数估计和模型比较提供了强大的替代方案。这些方法利用模拟，通过观察到的数据的比较来推断与模型在各种参数设置下产生的模拟结果的比较。在贝叶斯推论中，这些包括近似贝叶斯计算（Rubin，1984; Pritchard et al。，1999; Sisson等。，2018年），贝叶斯合成的可能性（Wood，2010; Price等，2018年），神经可能和后验估计（Rezende and Mohamed，2015年； Papamakarios，Sterratt和Murray，2019年）。在频繁的环境中，在Gourieroux，Monfort and Renault（1993）的基础工作之后，近年来才看到无可能无可能推理的进步（Masserano等人。，2022; Xie and Wang，2022年； Dalmasso等。，2024）。本研究的重点是频繁推断，针对基于模拟的模型和非标准的规律性条件的校准置信区间和区域的构建。建议的方法提供了统一的

查看详细

File

2024-11-26 机构名称:

动态情报评估：在通往AGI的道路上基准LLM，重点是模型置信

摘要 - 随着机器智能的发展，需要测试和比较不同AI模型的问题解决能力的需求。但是，当前的基准通常很简单，允许模型均匀地表现良好，并且很难区分其功能。此外，基准通常依赖于模型可能记住或猜测的静态问答对。为了解决这些局限性，我们引入了动态智能评估（DIA），这是一种使用动态问题模板测试AI模型的新方法，并改善了多个学科的指标，例如数学，密码学，网络安全性和计算机科学。随附的数据集，Dia-Bench包含各种挑战模板的集合，这些挑战模板具有各种形式的可变参数，包括文本，PDF，编译的二进制文件，视觉难题和CTF风格的网络安全挑战。我们的框架介绍了四个新指标，以评估多次尝试的模型的可靠性和信心。这些指标表明，以不同形式摆姿势时，即使是简单的问题也经常被错误地回答，从而突出了模型的可靠性中的显着差距。值得注意的是，像GPT-4O这样的API模型通常高估了其数学功能，而ChatGpt-4O由于有效的工具使用而显示出更好的性能。在自我评估的Openai的O1-Mini中，证明其应尝试解决哪些任务是最好的判断。我们使用DIA-Bench评估了25个最先进的LLMS，这表明当前的模型在复杂的任务中遇到了困难，并且即使有更简单的问题也表现出意外的较低信心。DIA框架设定了一个新标准，不仅可以评估解决问题的问题，还设定了模型的自适应智能和评估其局限性的能力。该数据集在项目页面上公开可用：https：//github.com/dia-bench。索引术语 - 手工智能，大语言模型，动态基准测试，性能指标，可靠性

查看详细

File

2022-12-14 机构名称:

Newcrest 发布年度信息表

Newcrest Mining Limited (ASX, TSX, PNGX: NCM) 发布了附件中截至 2022 年 6 月 30 日财年的 2022 年 12 月 13 日年度信息表 (AIF)，并将其提交给加拿大监管机构，以配合 Newcrest 在多伦多证券交易所的二次上市。重要提示在编制 AIF 时，矿产资源和矿产储量最初是使用 2012 年版的澳大利亚联合矿石储量委员会规范 (JORC 规范) 进行分类的。JORC 规范指定的置信类别与加拿大矿业、冶金和石油研究所 (CIM) 2014 年矿产资源和矿产储量定义标准 (CIM 定义标准) 中的置信类别相协调。由于置信类别定义相同，因此不需要修改置信类别。请注意，NI 43-101 不允许将推断矿产资源添加到其他矿产资源类别中。 AIF 中的矿产资源和矿产储量按照 CIM 定义标准进行报告。术语差异已得到解决，JORC 规则中的术语“矿石储量”使用 CIM 定义标准报告为“矿产储量”，而 JORC 规则中的术语“已证实矿石储量”使用 CIM 定义标准报告为“已证实矿产储量”。胜任人员声明 AIF 中与矿产资源和矿石/矿产储量相关的信息

查看详细

File

2025-01-06 机构名称:

HIV治疗审计2023和UNAIDS的进展95-95-95，爱尔兰

•估计有8,000人（95％的置信区间（CI）：6,800至9,000人）在爱尔兰居住在爱尔兰••爱尔兰取得了90-99-99的成就，但应指出的是，由于使用“数量”而不是“知道自己的地位的人数”，所以第一个“ 95”是“ 95”，这是第一个“ 95”，这是一个不足之处，是第二个95号。•2022年在爱尔兰享有艾滋病毒的人中有88％（95％CI：75％至98％）达到了病毒抑制。这超过了INAID（86％）设定的目标，与先前的治疗审计相比，在2018年进行的治疗审核相比显示出很大的改善（76％）•建模中不确定性的挑战反映在估计范围内的广泛置信区间中，并且在置信区域周围的置信区间很重要，并且在置信区域内是否在2018年以来一直存在于他们的置信区域中，他们在2018年的状态中都存在着任何人的状态。不接受治疗和未达到病毒抑制的治疗的个人

查看详细

arXiv:2501.01065v1 [stat.ME] 2025 年 1 月 2 日

File

2025-01-03 机构名称:

arXiv:2501.01065v1 [stat.ME] 2025 年 1 月 2 日

摘要。最近，人们对用于组合相关研究而无需明确评估其依赖性的假设检验方法的兴趣激增。其中，柯西组合检验 (CCT) 以其近似有效性和功效脱颖而出，利用对依赖性不敏感的重尾近似。然而，CCT 对大 𝑝 值高度敏感，将其反转以构建置信区域可能会导致区域缺乏紧凑性、凸性或连通性。本文提出了一种“重右”策略，通过在组合规则中排除柯西分布的左半部分，保留 CCT 对依赖性的弹性，同时解决其对大 𝑝 值的敏感性。此外，半柯西组合以及调和均值方法保证了有界和凸的置信区域，使它们成为唯一已知的具有所有这些理想特性的组合测试。介绍了用于实现这两种方法的高效和准确的算法。此外，我们开发了一种分而治之的策略，使用半柯西方法构建高维均值估计的置信区域，并通过经验证明了其优于 Hotelling 𝑇 2

查看详细

我们有可能恶化健康不平等老年人与湿疹性皮炎有关的降压药：一项纵向队列研究Morgan Ye，MPH 1 Leslie Chan，MD 1

File

2024-06-20 机构名称:

我们有可能恶化健康不平等老年人与湿疹性皮炎有关的降压药：一项纵向队列研究Morgan Ye，MPH 1 Leslie Chan，MD 1

缩写ACE - 血管紧张素转换酶ARB - 血管紧张素II受体拮抗剂/阻断剂/阻断剂AD - 特应性皮肤炎BPH - 良性前列腺增生性增生CCB - 钙通道阻滞剂CI - 置信度间隔HR - 置信度间隔 - 危害II型ICQR - 危险率 - 国际护理率 - 国际范围 - 国际范围 - 国际范围 - 国立率 - 国际境内率或范围 - 国立国家/地区的境外率或范围。 - 科学审查委员会稀薄 - 英国健康改善网络 - 英国要点（100个单词，目前71）问题：抗高血压药物的使用与诊断与老年

查看详细

File

2002-08-30 机构名称:

方差和时间方差*

表格中的 edf 和置信因子按以下方式获得：N =l,OW，m = 128，M = 1025-3~128+1 = 642（估计中的加数数量），q = M/m =5.0156，= 1.225，ul = 0.589 来自'IBble I，edf = 6.9617 来自等式 (4)。对于 95% 的置信度，我们需要计算 2.5% 和 975% 的卡方水平。逆卡方算法，Y = 6.9617 和 p = 0.025，给出 2 = 1.6720 作为 25% 水平，在公式 (2) 中用 a 表示。同样，97.5% 水平为 15.928，用 b 表示。计算出的置信因子为 1 - = 03389，m- 1 = 1.0405。（请注意，表 I1 中的值是根据和 al 的值计算出来的，这些值的有效数字比表 I 中给出的值要多。）

查看详细