联合学习(FL)是一种在不共享原始本地数据的情况下培训Edge Computing(EC)中多个客户端的AI模型的有前途的方法。通过启用本地培训并将更新汇总到全球模型中,FL在促进协作学习的同时保持隐私。从未有过,FL遇到了一些挑战,包括您的客户参与,由于患有恶意或不准确的模型而导致的客户效率低下的模型聚合。在本文中,我们提出了一种可信赖的FL方法,该方法结合了Q学习,信任和声誉机制,增强了模型的认可和公平性。此方法促进客户参与,减轻恶意攻击的影响并确保公平的模型分布。受强化学习的启发,Q学习算法使用Bellman方程优化了客户选择,从而使服务器能够平衡探索和开发,以改善系统性能。更重要的是,我们探索了点对点fl设置的优势。广泛的实验证明了我们提出的可信赖的FL方法在实现高学习准确性方面的有效性,同时确保客户之间的公平性并保持有效的客户选择。我们的结果揭示了模型性能,收敛速度和概括方面的显着改善。
摘要:“绿色供应链”的概念在全球企业追求可持续发展方面引起了人们的关注,从而导致供应链管理的优化。但是,绿色供应链中某些成员的行为模式表现出差异。因此,分析绿色供应链成员中不同行为模式的选择在改善供应链治理和实现可持续发展方面具有实际意义。在这项研究中,使用差异游戏理论构建了一个差异游戏模型,以分析绿色供应链成员之间的行为模式。借助贝尔曼连续动态编程理论获得了不同模型下的分析解决方案,并进行了比较分析和数值示例,以探索绿色供应链成员的操作策略以及选择短视和远见的行为模式。我们的发现表明,在绿色供应链中发挥主导作用的供应商应作为决策者表现出遥远的行为,而零售商也应表现出遥远的行为。这项研究采用了动态的观点,具有创新性和尖端,为企业提供了有针对性的建议,并作为绿色供应链管理未来发展的参考。
从人类反馈(RLHF)中学习的最新进展通常是通过最大程度地提高观察到的人类偏好的可能性来对重新功能进行建模。但是,由于个体的不同背景,这些偏好信号本质上是随机的。在奖励和政策更新过程中,首选项中的这种固有的不确定性可能会导致不稳定或不安全的行为。在这项工作中,我们通过学习分布式奖励模型和来自离线偏好数据集的风险敏感政策来介绍RLHF中不确定性的优先对齐。具体来说,我们提出了最大的后验(地图),以更新与轨迹相关的奖励。此更新过程在人类偏好中的不确定性之前包含了一份信息。利用此更新的奖励样本,我们开发了一个生成奖励模型来表示奖励分布。在奖励模型中固有的随机性驱动下,我们利用了离线分销钟声操作员和有条件的危险价值(CVAR)度量标准,从离线数据集中学习了对风险敏感的策略。实验结果表明,风险敏感的RLHF代理可以有效地识别并避免具有重大随机性的状态,从而在不同任务中实现规避风险的控制。
摘要:“绿色供应链”的概念在全球企业追求可持续发展方面引起了人们的关注,从而导致供应链管理的优化。但是,绿色供应链中某些成员的行为模式表现出差异。因此,分析绿色供应链成员中不同行为模式的选择在改善供应链治理和实现可持续发展方面具有实际意义。在这项研究中,使用差异游戏理论构建了一个差异游戏模型,以分析绿色供应链成员之间的行为模式。借助贝尔曼连续动态编程理论获得了不同模型下的分析解决方案,并进行了比较分析和数值示例,以探索绿色供应链成员的操作策略以及选择短视和远见的行为模式。我们的发现表明,在绿色供应链中发挥主导作用的供应商应作为决策者表现出遥远的行为,而零售商也应表现出遥远的行为。这项研究采用了动态的观点,具有创新性和尖端,为企业提供了有针对性的建议,并作为绿色供应链管理未来发展的参考。
在计算最佳策略时使用较短的计划范围的折扣正则化是一个流行的选择,可以避免面对稀疏或嘈杂的数据时过度使用。通常将其解释为脱颖而出或忽略延迟的影响。在本文中,我们证明了折扣正则化的两种替代观点,这些观点暴露了意外后果并激发了新颖的正则化方法。在基于模型的RL中,在较低的折现因子下计划的行为就像先前的,具有更强的州行动对,并具有更多的过渡数据。从数据集中估算过过渡矩阵时,跨州行动对的数据集估算了不均匀的数据集时,这会导致性能。在无模型的RL中,折扣正则化等同于计划使用加权平均贝尔曼更新,在该计划中,代理计划似乎所有州行动对的值都比数据所暗示的更接近。我们的等价定理促使简单的方法通过在本地设置个人状态行动对而不是全球的参数来概括常规ization。我们证明了折扣正则化的失败以及如何使用我们的州行动特定方法在经验示例中使用表格和连续状态空间进行纠正。
1型BCIS能够读取神经数据,但也出于多种目的报告并发送此数据。这些已被用来实时转化神经模式的语音(Allison等,2007; Guenther等,2009; Moses等,2019),并从神经模式中检测阳性和负面的情绪状态(Wu等,2017)。可以预期,这种此类的近任期BCI将能够检测出故意的欺骗,甚至检测潜意识的识别,并检测到更精确且复杂的思想含量(Bellman等,2018; Bunce等,2005; Evers和Sigman; Evers and Sigman,2013; Roelfsema,Roelfsema,Roelfsema,denys&Klink&Klink&Klink,2018)。记录和解释神经数据有许多实际用途。到目前为止,BCIS已被用于灵长类动物,以使他们能够通过直接将心理命令直接发送到相关设备来控制假肢和智能设备(Carmena等,2003; Ifft,2013; Moore,2003)。这些相同的技术也已被用来帮助截瘫或四肢瘫痪的人,通过为它们提供一个神经分流,该神经分流记录大脑的信息并将这些信息直接发送到激活肌肉的地方,从而使患者可以使用先前残疾的四肢(Moore,2003)。许多公司还具有长期目标,即允许用户心理向其他BCI用户传输消息,从而仅允许使用思想的静音通信(Kotchetkov等,2010)。
本文介绍了针对复杂技术对象预防性维护计划所开发的模型的分析结果。我们开发了基于两组不同假设的模型。解决的一般问题是确定一组零件或子组件的预防性更新联合时间。第一个模型(计划预防性维护策略模型)的目的是确定对进行故障后更新的零件持续应用先前开发的预防性维护计划的盈利能力。第二个模型(系统预防性维护的自适应策略模型)允许人们在每次其中一个零件进行故障后更新时确定一组零件的新预防性更新联合时间。使用典型的维护规划工具(基于动态规划和贝尔曼最优原理的决策随机模型)获得每个零件或子组件的初始预防性维护策略。使用这两个模型进行了示例模拟计算,并将其结果呈现为所开发的更新策略的估计总维护成本。分析对象是所选轨道车辆车轮在运行过程中因磨损而变化的几何特征。基于此类分析,可以为特定应用领域选择更好的预防性维护模型。
本文介绍了在增强学习领域(RL)中传统Q学习(QL)和深Q学习(DQL)的独特机制和应用。传统的Q学习(QL)利用Bellman方程来更新存储在Q桌上的Q值,从而适合简单环境。但是,由于国家行动对在复杂环境中的指数增长,其可伸缩性受到限制。深Q学习(DQL)通过使用神经网络近似Q值来解决此限制,从而消除了对Q-table的需求,并可以有效地处理复杂环境。神经网络(NN)充当代理商的决策大脑,学会通过训练来预测Q值,并根据收到的奖励调整其权重。该研究强调了良好的奖励系统在增强学习中的重要性(RL)。适当的奖励结构指导代理人采取所需的行为,同时最大程度地减少意外行动。通过同时运行多个环境,训练过程得到了加速,使代理商可以收集各种体验并有效地提高其性能。对培训模型的比较分析表明,平衡良好的奖励系统会导致更加一致和有效的学习。调查结果强调了在增强学习系统中仔细设计的必要性,以确保在简单和复杂的环境中确保最佳的代理行为和有效的学习成果。通过这项研究,我们获得了对Q学习(QL)和深度Q学习(DQL)应用的宝贵见解,从而增强了我们对代理方式学习和适应其环境的理解。
摘要 - 在本文中,我们提出了一种基于蒙特卡洛的增强特征选择(MCRFS)方法,以及两种效率改进策略,即早期停止(ES)策略和奖励级别互动(RI)策略。功能选择是数据预科技术中最重要的技术之一,旨在为给定的下游机器学习任务找到最佳特征子集。已进行了巨大的研究,以提高其有效性和效率。最近,多代理增强功能选择(MARFS)在改善特征选择的性能方面取得了巨大的成功。但是,Marfs承受着构成成本的沉重负担,这极大地限制了其在现实情况下的应用。在本文中,我们提出了一种有效的增强功能选择方法,该方法使用一种代理来遍历整个功能集,并决定选择或不选择每个功能。特别是,我们首先制定一种行为策略,并使用它来穿越功能集并生成培训数据。然后,我们根据培训数据评估目标策略,并通过Bellman方程来改善目标政策。此外,我们以渐进的方式进行了重要性采样,并提出了一种早期停止策略,以通过删除偏斜数据来提高训练效率。在早期停止策略中,行为策略停止以与重要性抽样重量成反比的概率相反。此外,我们提出了一种奖励级别的互动策略,以通过奖励级别的外部建议来提高培训效率。最后,我们在现实世界数据上设计了广泛的实验,以证明该方法的优越性。
控制理论提供了一种自然语言来描述多区域交互和灵活的认知任务,例如隐性注意力或脑机接口 (BMI) 实验,这些实验需要找到足够的局部电路输入,以便以上下文相关的方式控制其动态。在最佳控制中,目标动态应该最大化沿轨迹的长期价值概念,可能受控制成本的影响。由于这个问题通常难以处理,因此当前控制网络的方法大多考虑简化设置(例如,线性二次调节器的变体)。在这里,我们提出了一个数学框架,用于对具有低秩连接的随机脉冲神经元的循环网络进行最佳控制。一个基本要素是控制成本,它惩罚偏离网络默认动态(由其循环连接指定),从而促使控制器尽可能使用默认动态。我们推导出一个贝尔曼方程,该方程指定低维网络状态 (LDS) 的值函数和相应的最佳控制输入。最优控制律采用反馈控制器的形式,如果神经元的脉冲活动倾向于将 LDS 移向更高(更低)值的区域,则该控制器向循环网络中的神经元提供外部兴奋性(抑制性)突触输入。我们使用我们的理论来研究将网络状态引导到特定终端区域的问题,这些终端区域可以位于 LDS 中具有慢速动态的区域内或区域外,类似于标准 BMI 实验。我们的结果为一种具有广泛适用性的新方法奠定了基础,该方法统一了神经计算的自下而上和自上而下的视角。