提出了一种结合贝叶斯推断的贝叶斯强化学习可靠性方法,以实现故障概率估计和增强学习指导的顺序实验设计。以可靠性为导向的顺序实验设计被构架为有限的马尔可夫决策过程(MDP),其相关的效用函数由对克里格估计的失败概率的认知不确定性度量定义,称为综合的错误分类概率(IPM)。在此Ba-sis上,定义了一个步骤的贝叶斯最佳学习函数,称为错误分类减少的综合概率(IPMR)以及兼容的收敛标准。采取了三种有效的策略来加速IPMR信息的顺序实验设计:(i)IPMR中内部期望的分析推导,将其简化为单个期望。(ii)替换IPMR替换其上限IPMR U,以避免对其集成的元素计算。(iii)IPMR U中正交集合和候选池的合理修剪以减轻计算机内存约束。在两个基准示例和两个数值示例中证明了所提出的APACH的功效。结果表明,与其他现有学习功能相比,IPMR U促进IPM的快速减少,同时所需的计算时间比IPMR本身要少得多。因此,提出的可靠性方法在计算效率和准确性方面都具有很大的优势,尤其是在复杂的动态可靠性问题中。
主要关键词