主算法(算法 1)首先从我们需要解决的目标 6 实例(算法 2)创建一个子实例任务池,并可能从其他未解决的实例中创建子实例以进一步提高性能(选项 MIX)。通常,任务池包含 100,000 个任务或子实例。8 在每次迭代中,采样器/老虎机从池中挑选一批任务子实例并将其传递给 9 RL 代理。一批通常有 500 个任务或子实例(算法 3)。10 基于蒙特卡洛树搜索(算法 4)的 RL 代理,借助神经网络(CNN 或 11 GNN)进行增强,尝试解决这些实例。对于批次中的每个实例,MCTS 都会在给定的资源预算下寻找一个解决方案,对于生成的每个成功解决方案,MCTS 还会为策略/价值深度网络(训练器)生成一系列新的训练数据,以进一步更新其网络参数。每个实例的 MCTS 成功/失败状态都会发送回采样器/老虎机以调整其权重。每次成功的尝试不仅会生成一个有效的解决方案,还会为训练器改进策略/价值数据,以训练代理的深度网络。训练器会保留一个大小为 100000 的池子,用于存储 MCTS 生成的最新训练数据,并训练网络。每个训练批次都会均匀随机抽样。所有实验均在配备 2x18 19 核 Xeon Skylake 6154 CPU 和 5 个 Nvidia Tesla V100 16GB GPU 的机器上完成,所有训练组件均使用学习率为 0 的 Adam。 002作为默认优化器。MCTS模拟次数R设置为1600,Exp3每次迭代采样的batch size M设置为500。
○palladia ***○我对无法使用的MCT的选择治疗○受体酪氨酸激酶抑制剂○c-KIT突变的肿瘤中的较高反应率○○请勿遵循标签剂量!○〜65%的缓解率60%临床益处○中值响应时间→〜4.5个月○不良事件
摘要。本文介绍了 MCTS-BN,它是蒙特卡洛树搜索 (MCTS) 算法的一种改编,用于贝叶斯网络 (BN) 的结构学习。MCTS 最初设计用于博弈树探索,现已重新用于解决学习 BN 结构的挑战,方法是探索贝叶斯网络中潜在祖先顺序的搜索空间。然后,它采用爬山法 (HC) 从每个顺序中得出贝叶斯网络结构。在大型 BN 中,变量顺序的搜索空间变得巨大,在推出阶段使用完全随机的顺序通常不可靠且不切实际。我们采用半随机方法来应对这一挑战,方法是结合从其他启发式搜索算法(如贪婪等价搜索 (GES)、PC 或 HC 本身)获得的变量顺序。这种混合策略减轻了计算负担并提高了推出过程的可靠性。实验评估证明了 MCTS-BN 在改进传统结构学习算法生成的 BN 方面的有效性,即使在基础算法阶数次优的情况下也表现出稳健的性能,并且在提供有利阶数时超越了黄金标准。
现代 SMT 求解器(例如 Z3)提供用户可控制的策略,使求解器用户能够根据其独特的实例集定制求解策略,从而显著提高求解器针对其特定用例的性能。然而,这种策略定制方法提出了一个重大挑战:为 SMT 实例类手工制定优化策略对于求解器开发人员和用户来说仍然是一项复杂且艰巨的任务。在本文中,我们通过一种基于蒙特卡洛树搜索 (MCTS) 的新型方法解决了自动 SMT 策略合成问题。我们的方法将策略合成视为一个顺序决策过程,其搜索树对应于策略空间,并使用 MCTS 来导航这个巨大的搜索空间。使我们的方法能够识别有效策略同时保持低成本的关键创新是分层和分阶段 MCTS 搜索的思想。这些新颖的启发式方法允许更深入、更有效地探索策略空间,使我们能够合成比最先进 (SOTA) SMT 求解器中的默认策略更有效的策略。我们将我们的方法(称为 Z3alpha)作为 Z3 SMT 求解器的一部分来实现。通过对六种重要的 SMT 逻辑进行广泛的评估,Z3alpha 在大多数基准测试中表现出比 SOTA 综合工具 FastSMT、默认 Z3 求解器和 CVC5 求解器更优异的性能。值得注意的是,在具有挑战性的 QF BV 基准测试集上,Z3alpha 比 Z3 中的默认策略多解决 42.7% 的实例。
勒索软件攻击已成为一种主要的网络安全威胁,其越来越复杂的技术经常逃避传统的检测方法。提出了一个新颖的框架,该框架通过蒙特卡洛树搜索(MCT)的动态决策能力来协同深度学习模型的预测优势,从而为不断发展的勒索软件变体带来的挑战提供了全面的解决方案。通过严格的评估,混合动力框架在降低误报的同时表现出显着提高的检测准确性,表现优于常规机器学习模型。MCT的整合允许探索多个决策路径,从而实时增强了系统对新型威胁的适应性。此外,提出的模型还保持了计算效率,使其对于企业环境中的实时部署而言是可行的。结果证明了混合模型是现代网络安全中强大的防御机制的潜力,提供了一种可扩展有效的工具来减轻勒索软件威胁。
反向传播被认为是训练人工神经网络最有利的算法。然而,由于其学习机制与人脑相矛盾,反向传播因其生物学上的不合理性而受到批评。尽管反向传播在各种机器学习应用中取得了超人的表现,但它在特定任务中的表现往往有限。我们将此类任务统称为机器挑战任务 (MCT),旨在研究增强 MCT 机器学习的方法。具体来说,我们从一个自然的问题开始:模仿人脑的学习机制能否提高 MCT 的性能?我们假设,复制人脑的学习机制对于机器智能难以完成的任务是有效的。使用预测编码(一种比反向传播更具生物学合理性的学习算法)进行了多个对应于特定类型的 MCT 的实验,其中机器智能有提高性能的空间。本研究将增量学习、长尾和小样本识别视为代表性的 MCT。通过大量实验,我们检验了预测编码的有效性,它对 MCT 的表现远优于反向传播训练的网络。我们证明了基于预测编码的增量学习可以减轻灾难性遗忘的影响。接下来,基于预测编码的学习可以减轻长尾识别中的分类偏差。最后,我们验证了用预测编码训练的网络可以用少量样本正确预测相应的目标。我们通过将预测编码网络的特性与人脑的特性进行比较并讨论预测编码网络在一般机器学习中的潜力来分析实验结果。
摘要 — 量子计算机有可能在优化和数字分解等重要任务上超越传统计算机。它们的特点是连接性有限,这需要在程序执行期间将其计算位(称为量子位)路由到特定位置以执行量子操作。传统上,最小化路由开销的 NP 难优化问题已通过次优的基于规则的路由技术解决,而成本函数设计中嵌入了固有的人为偏见。本文介绍了一种将蒙特卡洛树搜索 (MCTS) 与强化学习 (RL) 相结合的解决方案。我们基于 RL 的路由器称为 AlphaRouter,其性能优于当前最先进的路由方法,并且生成的量子程序的路由开销减少了多达 20%,从而显著提高了量子计算的整体效率和可行性。
简介 游戏长期以来一直是人工智能的流行基准。许多研究人员研究了各种算法和技术,试图在国际象棋、围棋、赛车游戏、吃豆人小姐、实时战略 (RTS) 游戏和超级马里奥兄弟等不同的计算机游戏中逼近最佳玩法。有时,这些研究主题伴随着某种竞赛,在统一的基准中测试不同的方法。游戏研究使算法 AI 取得了一些有趣的进展,例如使用并行 Alpha-Beta 剪枝(在国际象棋中),或在围棋游戏中看到的游戏 AI 中最流行的算法之一蒙特卡洛树搜索 (MCTS) 的进展。虽然特定游戏研究的贡献确实很重要,但特定游戏竞赛由于其固有结构而存在一个问题:提出的大多数解决方案往往过于专注于它们所应用的领域。换句话说,挑战的性质,甚至是赢得比赛的斗争,都鼓励参与者为算法提供高度定制的启发式方法,这些启发式方法仅适用于用于挑战的游戏。例如,世界冠军星际争霸代理
摘要 - 搜索和救援行动中无人机的有效路径优化面临挑战,包括有限的可见性,时间限制和城市环境中的复杂信息收集。我们提出了一种全面的方法,可以利用3D AirSim-Ros2模拟器和2D模拟器,用于基于无人机的搜索和救援操作。路径计划问题被提出为部分可观察到的马尔可夫决策过程(POMDP),我们提出了一种新颖的“缩小POMCP”方法来解决时间限制。在Airsim环境中,我们将我们的方法与信仰维护的概率世界模型和避免障碍物的神经玫瑰花型导航器相结合。2D模拟器采用具有等效功能的替代ROS2节点。我们比较了2D模拟器中不同方法产生的轨迹,并评估3D Airsim-Ros模拟器中各种信念类型的性能。两个模拟器的实验结果表明,与替代方法相比,我们提出的缩小POMCP解决方案在搜索时间方面取得了重大改善,展示了其提高无人机辅助搜索和救援操作效率的潜力。索引条款 - 搜索和救援,POMDP,MCTS
摘要简介B7-H3是儿科癌症的潜在靶标,包括神经母细胞瘤(NB)。vobramitamab duocarmazine(也称为MGC018,此处称为Vobra Duo)是针对B7-H3抗原的研究性抗体 - 毒剂偶联(ADC)。它是由抗B7-H3人源化IgG1/kappa单克隆抗体通过可切除的缬氨酸 - 核酸连接器与Duocarmycin-Hydroxybenzamide Azaindole(VC-Seco-Duba)化学结合的。vobra Duo在表达B7-H3的肿瘤中显示了初步的临床活性。方法通过在人NB细胞系的面板中通过流程仪评估B7-H3的表达。在单层和多细胞肿瘤球体(MCT)模型中评估了细胞毒性,分别通过水溶性四唑盐,MTS,增殖测定法和细胞滴度GLO 3D细胞生存能力测定法评估了细胞毒性。通过膜联蛋白V染色研究了凋亡细胞死亡。正常,假数迁移和切除的小鼠NB模型分别与原发性肿瘤生长,转移和循环肿瘤细胞有关,分别具有最小的残留疾病。结果所有人类NB细胞系以单峰方式表达细胞表面B7-H3。vobra Duo对所有细胞系(IC50范围5.1-53.9 ng/ml)和NB MCT(IC50范围17.8-364 ng/mL)以剂量依赖性和时间依赖的方式进行了细胞毒性。与用无关(抗CD20)DuoCarmycin-ADC治疗的动物相比,在原位和假数小鼠模型中,用1 mg/kg vobra Duo进行每周静脉治疗3周延迟了肿瘤的生长。vobra Duo对未表达人B7-H3的鼠NB细胞系(NX-S2)无效。然而,当与人类B7-H3的细胞共同培养时,NX-S2细胞在存在VOBRA DUO的情况下被杀死,这表明旁观者活性。Vobra Duo治疗4周,在原位和切除的NB模型中进一步提高了生存率。vobra Duo与TOPOTECAN-TEMOZOLOMIDE(TOTEM)进行了良好的比较,这是NB复发疾病的标准护理疗法,分别由两到三个重复的4周4周VOBRA DUO治疗延迟或停止肿瘤复发。在用图腾结合使用Vobra Duo处理的小鼠中观察到了进一步的生存率。Vobra Duo治疗与体重减轻,血液学毒性或临床化学异常无关。
