值函数

2024-08-07 机构名称:

基于强化学习的自主机器人的研究

摘要 - 通过与环境的持续互动，基于实时反馈奖励信号不断优化决策，表明了强大的适应性和自学能力。近年来，它已成为实现机器人自动导航的关键方法之一。在这项工作中，引入了一种基于强化学习的自动机器人导航方法。我们使用深Q网络（DQN）和近端策略优化（PPO）模型通过机器人与环境之间的持续互动以及具有实时反馈的奖励信号来优化路径计划和决策过程。通过将Q值函数与深神经网络相结合，深Q网络可以处理高维状态空间，从而在复杂的环境中实现路径计划。近端策略优化是一种基于策略梯度的方法，它使机器人能够通过优化策略功能来更有效地探索和利用环境信息。这些方法不仅可以提高机器人在未知环境中的导航能力，还可以增强其适应性和自学能力。通过多个培训和仿真实验，我们在各种复杂的情况下验证了这些模型的有效性和鲁棒性。

查看详细

File

2025-01-22 机构名称:

arxiv：2501.12013v1 [Math.ap] 2025年1月21日

在本文中，我们的主要目的是针对穿孔域上的neumann类型边界价值问题（1.1） - （1.3）开发定量均质化理论，并建立收敛速率，在文献中从未研究过。在[6]中已经开始研究了周期性环境中汉密尔顿 - 雅各比方程的定量均质化，并且对于一般的非率汉密尔顿– jacobi方程式，对速率O（ε1 / 3）的收敛速率均为。[18]中已经启动了汉密尔顿–雅各布方程的定量均质化的最新发展，并且在[23]中建立了最佳速率O（ε）。在这个方向上有很大的兴趣和发展，我们指的是[7、8、10、17、19、20、21、24]和其中的参考文献。特别是我们的工作受[8]的启发，该工作研究了在状态约束边界条件下，研究凸汉密尔顿 - 雅各比方程的定量均匀化。在[8]中，作者重新开发了[23]中引入的框架，以将其应用于穿孔域上的状态约束问题。更确切地说，引入了与问题相关的扩展度量功能，并且证明是本文中的关键成分的一种亚粘附和超级效果，可以建立同质化的定量结果。此方法很健壮。然而，它在很大程度上取决于粘度解决方案的表示公式的结构，该公式是由相关值函数在最佳控制中给出的问题。因此，如果我们改变边界条件，则需要非常小心。如下所述，当我们考虑针对Neumann型问题的粘度解决方案的表示公式（1.1） - （1.3）时，我们需要考虑轨迹的反射效应，这是Skorokhod问题（1.11）表达的。这会造成新的困难，并需要仔细的论据来建立定量结果。我们指出，即使在凸设置中，也没有PDE争论来获得比O（ε1 / 3）更好的收敛速率。值得一提的是，在评论文章[15]中，定性和定量均质化理论被列为偏微分方程研究的主要发展。[15]中考虑的方程是椭圆形PDE。可以指出，诺伊曼问题比Dirichlet问题更加困难。在[16]中，作者解决了γ=ν的Neumann问题。对于一般情况下，γ与边界无处不在，[15]指出，即使对于Laplacian操作员，问题也不是微不足道的，并且是一个有趣且充满挑战的问题。例如，有关此方向的最新发展，请参见[13，22]。在本文中，我们建立了具有一般诺伊曼边界条件的一阶汉密尔顿 - 雅各比方程的定量均质化理论，并提供了收敛的最佳速率。在我们的论文中，我们定义值函数vεn，vεc：ωε×[0，∞）→r for（1.1） - （1.3）by

查看详细

File

2023-06-17 机构名称:

利用先前的解决方案来奖励成型和熵的钢筋学习

在加强学习（RL）中，从先前解决的任务中利用先验知识的能力可以使代理可以快速解决新问题。在某些情况下，可以通过组成先前解决的原始任务（任务组成）的解决方案来大致解决这些新问题。否则，可以使用先验知识来调整新问题的奖励功能，从而使光学策略保持不变，但可以更快地学习（奖励成型）。在这项工作中，我们开发了一个通用框架，用于奖励成型和任务组成，以熵进行的RL。为此，我们得出了一个确切的关系，该关系连接了具有不同奖励函数和动力学的两个熵调查的RL概率。我们展示了派生的关系如何导致熵调查的RL中奖励成型的一般结果。然后，我们将这种方法推广，以得出一个确切的关系，该关系连接最佳值函数，以在熵正则化的RL中组成多个任务。我们通过实验验证了这些理论贡献，表明奖励成型和任务综合会导致在各种环境中更快的学习。

查看详细

File

2025-01-08 机构名称:

arxiv：2501.03902v1 [cs.lg] 2025年1月7日

我们从时间角度研究了加强学习（RL）政策的解释性，重点是与个人行动相关的未来结果的顺序。在RL中，值函数压缩有关跨多个传统和无限视野收集的奖励的信息，从而允许一种紧凑的知识表示形式。但是，这种压缩掩盖了顺序决策中固有的时间细节，这是对解释性的关键挑战。我们提出了时间政策构成（TPD），这是一种新颖的解释性方法，该方法从他们的预期未来结果（EFO）方面解释了单个RL行动。这些解释将代理的价值函数分解为EFO序列，每个时间都逐步发展到感兴趣的预测范围，从而揭示了何时发生特定结果的见解。我们利用固定性时间差异学习来设计一种用于学习最佳和次优的动作的EFO的非政策方法，从而实现了由EFO组成的对比解释。我们的实验表明，TPD产生了准确的解释，即（i）阐明该政策的未来战略和预期的轨迹，对给定的行动进行了预期的轨迹，以及（ii）提高对奖励组成的理解，促进对奖励功能的微调，以与人类的期望保持一致。

查看详细

File

2024-04-29 机构名称:

识别在数据驱动的策略迭代中的作用：...

本文的目的是研究未知系统所谓的间接和直接数据驱动控制背后的基本机制。特别是，我们考虑应用于线性二次调节器问题的策略迭代。考虑了两个迭代过程，其中考虑了从系统中收集的数据来计算所需的最佳控制器的新估计。在间接策略迭代中，数据用于通过递归标识方案获得更新的模型估计，该方案以确定的方式使用，以执行经典的策略迭代更新。通过将并发模型识别和控制设计作为两个算法系统之间的反馈互连，我们提供了一个闭环分析，该分析显示了数据中任意激发的收敛性和稳健性。在直接策略迭代中，数据用于近似值函数并设计关联的控制器，而无需中间标识步骤。在提出了克服潜在的身份能力问题的最近提议的方案的扩展后，我们确定了在哪些条件下保证该程序提供最佳控制器。基于这些分析，我们能够比较两种方法的优势和局限性，突出了所需的样本，收敛属性和激发要求等方面。模拟以说明结果。

查看详细

File

2019-11-06 机构名称:

硅介电层不同钝化参数的电容电压曲线模拟

摘要：表面钝化是一种广泛使用的技术，可减少半导体表面的复合损失。钝化层性能主要可以通过两个参数来表征：固定电荷密度（𝑄ox）和界面陷阱密度（𝐷it），它们可以从电容-电压测量（CV）中提取。在本文中，使用模拟钝化参数开发了高频电容-电压（HF-CV）曲线的模拟，以检查测量结果的可靠性。𝐷it 由两组不同的函数建模：首先，代表不同悬空键类型的高斯函数之和和应变键的指数尾部。其次，采用了由指数尾部和常数值函数之和表示的更简单的 U 形模型。使用基于晶体硅上的二氧化硅（SiO 2 /c-Si）的参考样品的实验测量来验证这些模拟。此外，还提出了一种使用简单 U 形 𝐷 it 模型拟合 HF-CV 曲线的方法。通过比较近似值和实验提取的 𝐷 it 的平均值，发现相对误差小于 0.4%。近似 𝐷 it 的常数函数表示在复合效率最高的中隙能量附近实验提取的 𝐷 it 的平均值。

查看详细

File

2024-04-22 机构名称:

强化学习方法将压缩环境集成到知识图中

摘要 - 在各个领域中广泛使用知识图在其中有效整合和更新信息带来了挑战。在合并上下文时，常规方法通常依赖于规则或基本的机器学习模型，这可能无法完全掌握上下文信息的复杂性和流动性。这项研究提出了一种基于强化学习（RL）的方法，特别是利用深Q网络（DQN）来增强将上下文集成到知识图中的过程。通过将知识图的状态考虑为环境将动作定义为集成上下文的操作并使用奖励功能来评估知识图质量后整合后的改进，该方法旨在自动开发最佳上下文集成的策略。我们的DQN模型将网络用作函数近似器，不断更新Q值以估计动作值函数，从而有效地集成了复杂和动态上下文信息。最初的实验发现表明，我们的RL方法在实现各种标准知识图数据集的精确上下文集成方面优于技术，突出了增强学习在增强和管理知识图方面的潜在和有效性。索引术语 - 知识图推理，强化学习，奖励成型，转移学习

查看详细

File

2024-04-19 机构名称:

量子计算

我们将考虑数字计算，因此我们有兴趣计算整数值x的整数值f（x）。这是实际计算机执行的操作。正如我们将看到的，可以将功能视为逻辑操作（和，或，不等等的组合）；具有实际数字的有限优先操作也可以通过这种方式来表示，通过将实际数字的小数扩展为某些整数。计算是评估给定函数f（x）的某些过程。我们将通过电路图使用计算的抽象模型。这是函数f（x）的图形表示，它是通过一组简单的基本操作来构建的。这捕获了实际计算机操作模式的某些功能，尽管特定功能A给定电路计算是固定的，而可编程计算机可以计算我们输入程序指定的任何函数。电路模型不应过于从字面上看作为物理计算机的描述，而应作为理解如何从更简单的操作中构建所需功能的一种抽象方式。我们在这里介绍此内容主要是因为我们将在讨论量子计算的讨论中大量使用类似的图形表示。我们要代表整数x的整数值函数。我们用二进制表示法表示x，作为一串x n -1 x n -2。。。x 0。这是一个位置符号，因此不同的位乘以2的功率；这意味着

查看详细

File

2024-05-28 机构名称:

Q值正规变压器用于离线加固学习

离线增强学习（RL）的最新进步强调了条件序列建模（CSM）的功能，该范例是一种基于历史轨迹和目标返回的范式，该范式学习了动作分布。然而，由于单个轨迹内的采样回报之间的不一致和在多个轨迹之间的最佳回报之间的不一致，这些方法通常与将最佳轨迹缝合在一起的最佳轨迹拼接在一起。幸运的是，动态编程方法（DP）方法通过利用价值函数来近似每个状态的最佳未来回报，提供解决方案，而这些技术容易出现不稳定的学习行为，尤其是在长期和稀疏回报的情况下。在这些见解的基础上，我们提出了Q值重新授权的变压器（QT），该变压器（QT）结合了变压器的轨迹建模能力与DP方法的最佳未来回报的可预测性。QT学习一个动作值函数，并将最大化行动值的术语整合到CSM的培训损失中，该损失旨在寻求与行为政策紧密相符的最佳动作。对D4RL基准数据集的经验评估证明了QT优于传统的DP和CSM方法，这突出了QT在离线RL中增强最新艺术的潜力。

查看详细

File

2022-06-21 机构名称:

注释：人工智能(MSc/MCA)

人工智能 UNIT-1 人工智能简介：什么是 AI？AI 的重要性。AI 及相关领域。自然语言处理简介。UNIT-2 知识：一般概念、知识的定义和重要性、基于知识的系统、知识的表示、知识组织、知识操作、知识获取。UNIT-3 LISP 和 AI 编程语言：LISP 简介：语法和数值函数、LISP 中的基本列表操作函数、函数、谓词和条件、输入、输出和局部变量、迭代和递归、属性列表和数组、PROGLOG 和其他 AI 编程语言。UNIT-4 形式化符号逻辑：介绍、命题逻辑的语法和语义、FOPL 的语法和语义、Wffs 的属性、转换为子句形式、推理规则、解析原则、使用规则的表示。UNIT-5 专家系统简介、专家系统的特征、专家系统的应用。专家系统的重要性。书籍：1.Clockskin, W.F.和 Mellish, C.S.：Prolog 中的编程，Narosa 出版。House。2.Charniak, E. : 人工智能导论, Narosa 出版。House。3.Winston,P.H.: LISP, NArosa 出版。House。4.Milner : 通用 LISP：教程，Prentice Hall Inc. 1988。5.Marcellus : TURBO PROLOG 中的专家系统编程，P.H.I.1989.6.Elaime R. : 人工智能, 1983.7.Hunt, E.B.: 人工智能, Academic Press 1975 8.Lloyd,J.: 逻辑编程基础, Springer-Verlag 1982.9. clark, K.L.: Micro Prolog, Prentice Hall india.1987.

查看详细

XiaoMi-AI文件搜索系统

值函数

基于强化学习的自主机器人的研究

arxiv：2501.12013v1 [Math.ap] 2025年1月21日

利用先前的解决方案来奖励成型和熵的钢筋学习

arxiv：2501.03902v1 [cs.lg] 2025年1月7日

识别在数据驱动的策略迭代中的作用：...

硅介电层不同钝化参数的电容电压曲线模拟

强化学习方法将压缩环境集成到知识图中

量子计算

Q值正规变压器用于离线加固学习

注释：人工智能(MSc/MCA)

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI