使用现实世界数据了解治疗对健康相关结果的影响需要定义因果参数并施加相关识别假设,以将其转化为统计估计。半参数方法,例如目标最大似然估计器(TMLE),以构建这些参数的渐近线性估计器。要进一步建立这些估计量的渐近效率,必须满足两个条件:1)数据可能性的相关组成部分必须属于Donsker类,而2)2)滋扰参数的估计值在其真实值的速度上以比N -1 /4更快的速度收敛。高度适应性的拉索(HAL)通过在具有有界分段变化标准的Càdlàg函数中充当经验风险最小化来满足这些标准,已知是Donsker。hal达到了所需的收敛速度,从而保证了估计量的渐近效率。HAL最小化其风险的功能类别具有足够的灵活性,可以捕获现实的功能,同时保持建立效率的条件。此外,HAL可以对非方向可区分参数(例如条件平均治疗效果(CATE)和因果剂量响应曲线,对精确健康很重要。尽管在机器学习文献中经常考虑这些参数,但这些应用通常缺乏适当的统计推断。HAL通过提供可靠的统计不确定性量化来解决这一差距,这对于健康研究中的知情决策至关重要。
• 展示统计推断如何从概率论的第一原理中产生。 • 理解推理的基本原理:充分性、似然性、辅助性、等方差。 • 理解有限样本和推理程序渐近效率的概念。 • 展示对参数和非参数 delta 方法、渐近正态性、Edgeworth 展开和鞍点方法的掌握。 • 估计感兴趣的关键总体参数,检验关于它们的假设并构建置信区域。 • 在实践中使用参数、非参数、贝叶斯和稳健推理。 • 使用计算机软件包为最常见的推理程序和计算机密集型计算(如引导和稳健估计)生成输出。
动态治疗方案或政策是针对单个特征量身定制的多个阶段的决策功能的序列。实践中的一类重要的治疗政策,即多阶段固定治疗政策,规定了使用相同决策功能在各个阶段使用相同决策功能的治疗分配概率,在该阶段中,该决定基于相同的相同特征,这些功能集成了时间改进的变量(例如,经常收集的,常规收集的疾病生物标志物)。尽管有广泛的文献来构建与动态治疗策略相关的价值函数的有效推断,但很少的工作集中在策略本身上,尤其是在存在高维特征变量的情况下。我们旨在填补这项工作的空白。具体来说,我们首先使用增强的价值加权估计器来估算多阶段固定治疗策略,以提高渐近效率,并进一步应用惩罚来选择重要的特征变量。然后,我们为有效推理构建策略参数估计器的一步改进。从理论上讲,我们表明改进的估计器在渐近上是正常的,即使在较慢的收敛速率上估算了滋扰参数,并且特征变量的尺寸随样本尺寸而增加。我们的数值研究表明,所提出的方法估计具有近乎最佳价值函数的稀疏政策,并对策略参数进行有效的推断。
摘要 尽管在某些情况下使用量子样本可能比使用经典样本更有效地学习概念类,但 Arunachalam 和 de Wolf [3] 证明,在量子 PAC 和不可知论学习模型中,量子学习者的渐近效率并不比经典学习者更高。他们通过量子态识别和傅里叶分析建立了样本复杂度的下限。在本文中,我们通过信息论方法推导出 PAC 和不可知论模型中量子样本复杂度的最佳下限。证明可以说更简单,相同的想法可用于推导出量子学习理论中其他问题的最佳界限。然后,我们转向优惠券收集器问题的量子类似物,这是概率论中的一个经典问题,在 PAC 学习研究中也具有重要意义。Arunachalam、Belovs、Childs、Kothari、Rosmanis 和 de Wolf [1] 将该问题的量子样本复杂度表征为常数因子。首先,我们证明了上述信息论方法无法得出最佳下限。作为副产品,我们得到了任意高维纯态的自然集合,这些纯态不易(同时)区分,而集合具有接近最大的 Holevo 信息。其次,我们发现信息论方法为该问题的近似变体得出了渐近最佳界限。最后,我们通过广义 Holevo-Curlander 集合可区分性界限,推导出具有精确领先阶项的量子优惠券收集器问题的尖锐下限。我们研究的量子优惠券收集器问题的所有方面都取决于相关 Gram 矩阵的谱的属性,这可能是独立的兴趣所在。