使用现实世界数据了解治疗对健康相关结果的影响需要定义因果参数并施加相关识别假设,以将其转化为统计估计。半参数方法,例如目标最大似然估计器(TMLE),以构建这些参数的渐近线性估计器。要进一步建立这些估计量的渐近效率,必须满足两个条件:1)数据可能性的相关组成部分必须属于Donsker类,而2)2)滋扰参数的估计值在其真实值的速度上以比N -1 /4更快的速度收敛。高度适应性的拉索(HAL)通过在具有有界分段变化标准的Càdlàg函数中充当经验风险最小化来满足这些标准,已知是Donsker。hal达到了所需的收敛速度,从而保证了估计量的渐近效率。HAL最小化其风险的功能类别具有足够的灵活性,可以捕获现实的功能,同时保持建立效率的条件。此外,HAL可以对非方向可区分参数(例如条件平均治疗效果(CATE)和因果剂量响应曲线,对精确健康很重要。尽管在机器学习文献中经常考虑这些参数,但这些应用通常缺乏适当的统计推断。HAL通过提供可靠的统计不确定性量化来解决这一差距,这对于健康研究中的知情决策至关重要。
每天,世界各地的司机都依赖 GPS 系统中的交通模型来引导他们找到最快的路线。同样,互联网用户也会绕过服务器拥塞的区域,让互联网为所有人提供顺畅的服务。为这两个系统提供支持的技术是随机建模,即对随机现象的数学理解。随机建模最初是在 20 世纪 30 年代和 40 年代开发的,用于了解细菌种群增长或气体分子运动等现象。在 20 世纪 70 年代和 80 年代,由 NSF 资助的研究人员(如 Monroe Donsker、Srinivasa Varadhan 和 Daniel Stroock)为强大而灵活的模型铺平了道路,这些模型可以预测如何以及何时使用此类资源。如今,随机模型是语音识别系统的重要组成部分,使人们能够向计算机系统传达命令和信息。