摘要 - 我们相信,基于机器学习的自动事件响应的代理需要处理网络结构的变化。计算机网络是动态的,随着时间的推移,结构自然可以改变。小型网络的再训练代理会花费时间和精力。我们试图通过现有的关系代理学习方法来解决这个问题,其中假定对象之间的关系在问题实例中保持一致。计算机网络的状态表示为关系图,并通过传递神经网络的消息编码。使用编码的消息传递神经网络和代理策略是使用强化学习优化的。我们评估了网络自主体育馆第二个实例的方法进行实验(CAGE 2),这是一种模拟企业网络攻击的网络事件模拟器。我们创建了原始网络的变体,其中测试了不同数量的主机和代理,而无需对其进行其他培训。我们的结果表明,尽管网络发生了变化,但使用关系信息的代理仍能够找到解决方案,并且在某些情况下可以最佳地执行。使用默认向量状态表示的代理性能更好,但需要在每个网络变体上进行特殊培训,这表明专业化和概括之间的权衡。索引术语 - 循环安全,加强学习,图形学习,关系学习,概括
b'we提出了一个以福利为中心的博览会加强学习环境,在该环境中,代理商享受一组受益人的矢量值得奖励。给定福利函数W(\ xc2 \ xb7),任务是选择一个策略\ xcb \ x86 \ xcf \ x80,该策略大约优化了从start state s 0,即\ xcb \ xcb \ x86 \ xcf \ xcf \ xcf \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ x80 \ xmax \ xcf \ x80 w v \ xcf \ x80 1(s 0),v \ xcf \ x80 2(s 0),。。。,v \ xcf \ x80 g(s 0)。我们发现,福利最佳政策是随机的,依赖起始国家的。单个行动是错误是否取决于策略,因此错误的界限,遗憾分析和PAC-MDP学习不会容易概括为我们的设置。我们开发了对抗性的KWIK(KWIK-AF)学习模型,其中在每个时间步中,代理要么采取勘探行动或输出剥削策略,因此勘探行动的数量是有限的,并且每个利用策略都是\ xce \ xce \ xb5-Welfelfare-welfelfare-Wertal的最佳。最后,我们将PAC-MDP减少到Kwik-af,引入公平的显式探索漏洞利用者(E 4)学习者,并证明其Kwik-af学习了。
此预印本版的版权持有人于2024年6月29日发布。 https://doi.org/10.1101/2024.06.29.601316 doi:Biorxiv Preprint
人类和动物擅长从有限的数据中进行泛化,这种能力尚未被人工智能完全复制。本视角研究生物和人工深度神经网络 (DNN) 在分布内和分布外环境下的泛化能力。我们提出两个假设:首先,与离散认知实体(如物体、词语和概念)相关的神经流形的几何性质是强大的序参量。它们将神经基础与泛化能力联系起来,并提供一种统一的方法论来弥合神经科学、机器学习和认知科学之间的差距。我们概述了神经流形几何研究的最新进展,特别是在视觉物体识别方面,并讨论了将流形维数和半径与泛化能力联系起来的理论。其次,我们认为广度 DNN 的学习理论,尤其是在热力学极限下的学习理论,为生成所需神经表征几何和泛化的学习过程提供了机制上的见解。这包括权重范数正则化、网络架构和超参数的作用。我们将探讨该理论的最新进展和持续面临的挑战。我们还将讨论学习的动态及其与大脑表征漂移问题的相关性。
摘要 - 在算法选择研究中,围绕算法特征的讨论被对问题特征的重点显着掩盖了。尽管一些实证研究已经提供了有关算法特征有效性的证据,但是将算法特征纳入算法选择模型的潜在好处,并且对不同场景的适用性尚不清楚。在本文中,我们通过提出基于算法功能的算法选择的第一个可证明的保证来解决这一差距,从而采用概括性的观点。我们分析与算法特征相关的收益和成本,并研究概括误差如何受到不同因素的影响。具体而言,我们分别检查了在转导和感应学习范式下的自适应和预定义算法特征,并根据模型的Rademacher复杂性得出了概括误差的上限。我们的理论发现不仅提供了紧密的上限,而且还提供了有关各种因素的影响的分析见解,例如问题实例的训练量表和候选算法,模型参数,特征值以及培训数据和测试数据之间的分布差异。值得注意的是,我们证明了模型如何从涉及许多算法的复杂场景中受益于算法特征,并证明了分布的概括误差与χ2差异之间的正相关。
了解神经网络在看不见的数据上如何概括对于设计更健壮和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释概括差距而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
了解神经网络在看不见的数据上如何概括对于设计更多的易萧条和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释生成间隙而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
路径特征是有效捕获路径的分析和几何特性的路径的强大表示,具有有用的代数特性,包括通过张量产品快速串联路径的特性。签名最近在用于时间序列分析的机器学习问题中广泛采用。在这项工作中,我们建立了通常用于最佳控制和吸引路径签名属性的价值函数之间的连接。这些连接激发了我们的新颖控制框架,具有签名转换,从而有效地将Bellman方程推广到轨迹空间。我们分析框架的属性和优势,称为签名控制。特别是我们证明(i)它自然可以处理不同/适应性的时间步骤; (ii)它比价值功能更新更有效地传播更高级别的信息; (iii)对于长期推出而言,动态系统错误指定是可靠的。作为我们框架的特定情况,我们设计了一种模型预测控制方法。此方法概括了整体控制,适合未知干扰的问题。在模拟中测试了所提出的算法,其中包括可区分的物理模型,包括典型的控制和机器人技术任务,例如点质量,ant模型的曲线跟随以及机器人操纵器。关键字:决策,路径签名,钟声方程,积分控制,模型预测控制,机器人技术
本文在关系,非平稳的随机环境中介绍了一种持续计划和模型学习的新方法。这种功能对于在不确定和不断发展的现实世界中的连续决策系统的部署至关重要。在此类实践环境中工作,具有未知(和非平稳)过渡系统和不断变化的任务,所提出的框架模型模型差距在代理人的当前知识状态中,并使用它们来进行集中,调查的探索。使用这些探索收集的数据用于学习可概括的概率模型,用于解决当前任务,尽管环境动力学发生了持续变化。在几个非平稳基准领域上的经验评估表明,这种方法在样本复杂性方面显着优于计划和RL基准。理论结果表明,当平稳性保持时,该系统表现出理想的收敛性。
chatgpt4pcg竞赛呼吁参与者向chatgpt提交输入,或提示将其输出引导到INSTUCTIONS,以生成水平作为俄罗斯方块型块的序列。提示提交给比赛的提示是由Chatgpt查询的,以生成类似于英语字母字母的级别。lev-基于与游戏引擎中的目标字母和物理稳定性的相似性评估。这为基于及时的程序内容生成(PCG)提供了定量评估设置,该方法在PCG中越来越受欢迎,就像在生成AI的其他领域一样。本文着重于复制和推广竞争结果。本文中的复制实验首先旨在测试从chatgpt收集的响应数量是否足以说明随机性。我们需要原始提示提交,并在比赛结束后大约六个月后,在不同的机器上重新重新竞争。我们发现结果很大程度上是复制的,只是由于我们只能部分确定的原因,15个提交中的两项在我们的补习中做得更好。在概括方面,我们注意到表现最佳的提示具有针对所有26个目标级别硬编码的说明,这与从示例中生成新的,以前看不见的内容的PCGML目标不一致。我们在更受限制的零射击和少数促使方案的情况下执行实验,并发现对当前方法的概括仍然是一个挑战。
