摘要 - 开放式学习从使用符号方法来实现目标表示,因为它们提供了为有效且可转移的学习构建知识的方法。但是,依赖符号推理的现有层次增强学习(HRL)方法通常受到手动目标表示,因此通常受到限制。自主发现符号目标表示的挑战是它必须保留关键信息,例如环境动态。在本文中,我们提出了一种通过紧急表示(即组在一起)在任务中具有相似作用的环境状态集的新兴表示的发展机制。我们引入了一种封建HRL算法,该算法同时了解目标表示和层次结构政策。该算法使用神经网络工作的符号可及性分析来近似状态集之间的过渡关系并确定目标表示。我们在复杂的导航任务上评估了我们的方法,表明学习的表示形式可解释,可转移,并导致数据有效学习。
实现信息处理任务的抽象最佳速率通常以正规信息度量来表征。在许多量子任务的情况下,我们不知道如何计算此类数量。在这里,我们利用最近引入的D#中的对称性,以便在各种正规化数量上获得半有限编程范围的层次结构。作为应用程序,我们提供了一个一般程序,以在正规化的叶ume频道差异以及经典能力和量子通道的两向辅助量子能力上给出有效的界限。特别是,我们可以轻微改善振幅阻尼通道的能力。我们还证明,对于固定的输入和输出尺寸,可以将任何两个量子通道之间的正则夹层r´enyi差异近似至1 /ϵ中多项式的及时time。
摘要 在可再生能源的背景下,虚拟发电厂 (VPP) 被视为智能控制复杂、分散、分布式和异构发电过程的关键技术。然而,VPP 的经济和生态控制是一项非常关键的任务:由于 VPP 在复杂性、技术组合、环境条件和运行期间需要优化的目标方面具有很大的变化性,单个 VPP 的控制需要能够有效地考虑所有这些单独的约束条件。因此,我们在本文中提出了一种结合计算智能 (CI) 元启发式的 VPP 抽象控制方法,该方法旨在灵活适用于不同的 VPP 规模、目标和发电厂类型。此外,该方法还提供了构建分层 VPP 的可能性,因为这通常是系统运营商的要求。为了证明该控制方法的有效性,考虑了三个示例性优化目标,并将其应用于不同组合的扁平/分层 VPP:最小化运行储备需求、最小化 CO 2 排放量和最大化发电厂灵活性。此外,该方法与三个示例性 CI 元启发式方法相结合并进行评估:模拟退火 (SA)、粒子群优化 (PSO) 和蚁群优化 (ACO)。为了使这种先进的 CI 元启发式方法在优化问题中的使用合法化,梯度下降优化 (GDO) 作为一种传统的优化技术也被考虑在内。基于具体的示例场景以及广泛的汇总测试运行,结果表明该控制方法能够有效地优化各种 VPP 组合以实现给定的目标。
。cc-by-nc-nd 4.0国际许可证可永久提供。是作者/资助者,他已授予Medrxiv的许可证,以显示预印本(未通过PEER REVIVE的认证)Preprint Preprint the版权所有此版本,该版本于2025年2月14日发布。 https://doi.org/10.1101/2024.11.18.24317486 doi:medrxiv preprint
前任org 2019 Gabriel Crosby学生成功2016 2016 Samuel Jator认证和评估200 2020 Gene Theodori Research&Sponsed计划202 2040 Rebecca Boone Art&Sciences 204 2060 2060 2060 Joby John Business国家批准中心200 2090布雷特·韦尔奇距离教育2002100克里斯托弗·赖特美术与传播学院210 210 2110 Vivienne McClendon图书馆21111 212 2120 Brett Welch毕业生研究200 2130 TILISA TILISA THIBODEAUX TALH&HONORS&HONORS PROGRAM Facilities 301 3030 Sean Stewart Information Technology 303 3040 Marsha Worthy Human Resources 300 4000 Freddie Titus Student Affairs 400 4100 Freddie Titus Student Activities 400 4200 Shawn Gray Student Facilities 400 4300 Freddie Titus Aux Debt Service 400 4500 Freddie Titus Student Services 400 5000 Juan Zabala University Advancement 500 6000 Jeff O'Malley Athletics 600前任org 2019 Gabriel Crosby学生成功2016 2016 Samuel Jator认证和评估200 2020 Gene Theodori Research&Sponsed计划202 2040 Rebecca Boone Art&Sciences 204 2060 2060 2060 Joby John Business国家批准中心200 2090布雷特·韦尔奇距离教育2002100克里斯托弗·赖特美术与传播学院210 210 2110 Vivienne McClendon图书馆21111 212 2120 Brett Welch毕业生研究200 2130 TILISA TILISA THIBODEAUX TALH&HONORS&HONORS PROGRAM Facilities 301 3030 Sean Stewart Information Technology 303 3040 Marsha Worthy Human Resources 300 4000 Freddie Titus Student Affairs 400 4100 Freddie Titus Student Activities 400 4200 Shawn Gray Student Facilities 400 4300 Freddie Titus Aux Debt Service 400 4500 Freddie Titus Student Services 400 5000 Juan Zabala University Advancement 500 6000 Jeff O'Malley Athletics 600
环境在各个序列中是不同的。参与者总共学习了四个序列:一条绿色和蓝色路径,包含一组八个环境,另一条绿色和蓝色路径,包含一组不同的八个环境。为了便于说明,这里只描绘了一条绿色和一条蓝色路径。(b)故事生成。为了学习环境的顺序,参与者为每条路径生成故事,以按顺序链接环境。参与者被告知将最终环境链接回第一个环境以创建一个循环。(c)虚拟现实训练。参与者随后在沉浸式虚拟现实中以绿色路径顺序和蓝色路径顺序探索环境,同时排练他们的故事。在给定的环境中,会出现一个绿色和蓝色的球体。触摸这些球体时,参与者会按照相应的(绿色或蓝色)序列传送到下一个环境。然后,参与者回忆起四个序列中的每一个的顺序(未显示)。环境图像是游戏引擎 Unity 中从可用于商业用途的资产创建的 3D 环境的屏幕截图。
摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。
多个实例学习(MIL)通过单细胞RNA-sequent(SCRNA-SEQ)数据提供了一种结构的方法来预测患者表型预测。但是,现有的MIL方法倾向于忽略SCRNA-Seq数据中固有的层次结构,尤其是细胞的生物组或细胞类型。这种情况可能会导致较高的细胞分裂水平下的次优性能和差的可解释性。为了解决这一差距,我们为基于注意力的MIL框架提供了一种新颖的企业层次信息方法。具体而言,我们的模型在细胞和细胞类型上介绍了基于注意力的聚集机制,因此在整个模型中的信息流程上实施了层次结构。在广泛的实验中,我们提出的方法始终优于现有模型,并在数据约束的情况下证明了鲁棒性。此外,消融测试结果表明,仅将注意力机理赋予细胞类型而不是细胞的注意力会导致性能提高,从而强调合并分层组的好处。通过识别与预测最相关的关键细胞类型,我们表明我们的模型能够捕获生物学上有意义的关联,从而促进生物学发现。
语音理解需要人类大脑将声波转换为意义。为此,大脑会生成一个特征层次结构,将感官输入转换为越来越抽象的语言属性。然而,人们对这些分层特征的生成和持续协调方式知之甚少。在这里,我们提出每个语言特征都在大脑中动态表示,以同时表示连续事件。为了检验这个“分层动态编码”(HDC)假设,我们使用时间分辨的大脑活动解码来跟踪语言特征综合层次结构的构建、维护和整合,涵盖声学、语音、亚词汇、词汇、句法和语义表示。为此,我们为 21 名参与者录制了脑磁图 (MEG),让他们听了两个小时的短篇故事。我们的分析揭示了三个主要发现。首先,大脑逐步表征并同时维持连续的特征。其次,这些表征的持续时间取决于它们在语言层次中的级别。第三,每个表征都由动态神经代码维护,该代码以与其相应的语言水平相称的速度发展。这种 HDC 可以随时保持信息,同时限制连续特征之间的干扰。总体而言,HDC 揭示了人类大脑在自然语音理解过程中如何不断构建和维持语言层次,从而将语言理论锚定到其生物学实现上。
通过强化学习来自动综合机器人系统的政策,依赖于奖励信号并密切指导。因此,该信号应忠实地反映出设计师的意图,这些意图通常被表示为高级要求的集合。几项工作正在从正式要求中开发自动奖励定义,但是它们在产生既有有效培训又能够满足多种异质要求的信号时表现出局限性。在本文中,我们将任务定义为一组部分安全,目标和舒适性要求,并引入一种自动化方法,以在奖励信号中执行自然秩序。我们通过将要求自动转化为安全性,目标和舒适性奖励的总和来执行此操作,其中目标奖励是安全奖励的函数,而舒适奖励是安全和目标奖励的函数。使用基于潜在的公式,我们增强了稀疏到密集的奖励,并正式证明了这一点以保持政策最佳性。我们称我们的新方法分层,基于潜在的奖励成型(HPRS)。我们对八个机器人基准测试的实验表明,HPRS能够生成满足复杂层次要求的政策。此外,与最新技术相比,HPR相对于保留职位的政策评估指标,达到了更快的融合和卓越的性能。通过自动平衡竞争要求,HPRS可以通过改进的舒适度和无手动参数调整生成任务满意的政策。通过消融研究,我们分析了各个需求类别对紧急行为的影响。我们的实验表明,当与目标和安全保持一致时,HPR从舒适性要求中受益,并且在与安全或目标要求冲突时会忽略它们。最后,我们验证了HPRS在现实世界机器人技术应用中的实际可用性,包括使用第1辆车的两个SIM到现实实验。这些实验表明,任务规范的层次设计有助于SIM到现实的传输,而无需任何领域的适应性。