3 最有名的替代标准理论的竞争者可以说是卡尼曼和特沃斯基的前景理论。然而,这一理论也经过了修改和完善,对于所谓的“理论”的功能形式,并没有达成共识。有关正在进行的辩论,请参阅 Bernheim 和 Sprenger (2020) 以及 Abdellaoui 等人 (2020),他们批评了前一篇论文,但也承认累积前景理论存在许多描述性缺陷。同样,半双曲线消费随时间变化的模型也因其经验上的缺陷而受到批评(Benhabib 等人,2010 年)。最后,许多实验结果似乎过于脆弱,无法作为稳健理论的基础(例如,参见 Grimm 和 Mengel (2010) 关于最后通牒博弈的论文,以及 Hertwig、Barron、Weber 和 Erev (2004) 关于小概率的作用的论文)。
I. 引言 微电网是一种很有前途的概念,它可以解决将分布式可再生能源和储能系统整合到电网中的挑战。在线优化是根据系统的实时状态来调度微电网的运行,是确保微电网经济运行的关键技术。然而,可再生能源的不确定性给微电网的在线优化带来了巨大的挑战。为了解决这个问题,研究人员提出了几种在线优化方法,如模型预测控制 (MPC) [1] 和基于近似动态规划 (ADP) 的算法 [2]。然而,上述方法的在线优化性能依赖于预测信息。因此,性能受到可再生能源和负荷功率的预测精度的影响。为了减少对预测的依赖,已经提出了几种其他的微电网在线优化方法,包括 Lyapunov 优化 [3]、CHASE 算法 [4] 以及最近开发的基于深度强化学习 (DRL) 的优化方法(例如深度 Q 网络 (DQN) [5]、MuZero [6])。
引言微电网是一个很有前途的概念,它可以解决分布式可再生能源和储能系统融入电网的挑战。在线优化是根据系统的实时状态对微电网的运行进行调度,是确保微电网经济运行的关键技术。然而,可再生能源的不确定性给微电网的在线优化带来了巨大的挑战。为了解决这个问题,研究人员提出了几种在线优化方法,如模型预测控制(MPC)[1]和基于近似动态规划(ADP)的算法[2]。然而,上述方法的在线优化性能依赖于预测信息。因此,性能受到可再生能源和负荷功率的预测精度的影响。为了减少对预测的依赖,已经提出了其他几种微电网在线优化方法,包括Lyapunov优化[3]、CHASE算法[4]以及最近开发的基于深度强化学习(DRL)的优化方法(例如深度Q网络(DQN)[5]、MuZero [6])。与传统的微电网在线优化方法(例如MPC)相比,基于DRL的算法通过历史可再生能源发电和负载序列来学习操作系统,并且可以在不使用任何预测信息的情况下进行近似最优调度[6]。然而,上述工作主要关注具有单个电池储能系统(BESS)的微电网的在线优化,未能解决BESS的分布式位置特性。随着商业和家庭储能技术的快速发展,大量BESS将安装在微电网的分布式位置。
为冰岛首都地区供暖区,在很大程度上依赖地热水,其中一个关键组成部分是位于雷克雅未克附近Mosfellsdalur的Reykjahlíð的深井泵网。但是,该网络的操作尚未完全优化以达到整体效率。电动潜水泵(ESP)和垂直轴泵(VSP)的组合提出了一项计算强度的优化挑战。这项工作通过集成了使用Epanet开发的液压模拟模型与Dueling Dueling Q-Network(DQN)体系结构来应对挑战,在该模型中,神经网络作为核心组件起作用,用作功能近似器,以优化流动流量和动力消耗之间的复杂,非线性关系,实现多型目标。探索了两种不同的方法,与当前的操作相比,该网络的功耗降低了6.5%,同时准确地满足了需求。此优化是在几乎实时实时执行的,这使其非常适合区域供暖系统典型的波动需求条件。
摘要目的:开发一个控制系统,以防止对乳制品业务的供应链的过度响应。方法:使用了以下方法:DQN,Double DQN,Dueling DQN和Dueling Double DQN以确定需求的分布:正常和均匀。结果:根据学习稳定性(最后10,000集)计算结果。观察到DQN和DDQN的平均值非常相似。为了验证DQN算法的性能是否比DQN算法的性能更好,进行了非参数测试以比较两个相关样本的平均等级,并确定它们之间是否存在差异。对于正常和均匀分布的P值分别为5.83e -38和0.000。结论:最佳结果的算法是DUELing DQN,需求的平均总成本为151.27单位,正态分布,平均为155.3个单位,需求均匀分布。一旦达到收敛性,此方法的可变性就会降低。
随着网络威胁的越来越复杂,下一代网络(NGN)中的现有入侵检测系统(IDS)受到更多的虚假启动和努力提供强大的安全性功能,突出了对更适应性和可靠的威胁检测机制的关键需求。这项研究介绍了一个新颖的ID,该ID利用了Dueling Dueling Deep Q-Network(DQN)在游戏理论框架中模拟多试剂对手学习方案的强化学习算法来应对这些挑战。通过使用定制的OpenAI健身房环境进行现实的威胁模拟和先进的决斗DQN机制,以减少高估偏差,拟议方案显着提高了入侵检测的适应性和准确性。针对当前最新方法的比较分析表明,所提出的系统可实现出色的性能,精度和F1得分的提高分别为95.02%和94.68%。这些结果强调了拟议的自适应ID的潜在范围,以防御NGN中的动态威胁格局。
弗吉尼亚州的能源格局正处于十字路口。联邦、企业和家庭的能源需求正在变化,并且不断增长。不断变化的能源生态系统呈现出基载发电的可靠性与碳排放减少之间的鲜明对比。在这些相互竞争的目标之间,存在着关于连续基载与间歇性能源发电技术对消费者的相对成本的争论。基载发电机,如核电站和联合循环天然气,会持续、持续地运行,以满足电力需求的高峰和低谷。间歇性发电机,如太阳能和风能,只有在条件合适时才能运行,即阳光普照或风吹拂。
由于所有这些因素,以及人类倾向于以笼统的范畴术语思考,关于 AGI 时间线的争论通常以充满希望、沮丧、欣喜若狂和不屑一顾的人们之间的对决、正交的范畴声明的形式出现。有些人推断某些领域最近的快速发展,并认为变革性的 AGI 即将到来,甚至到了忽视储蓄和生育等面向未来的活动的地步,或者提倡使用暴力来抑制即将到来的 AGI 发展。与此同时,其他人则对最近的成就不屑一顾,并坚持认为 AGI 是一个遥远而可疑的原因,甚至是哲学上的不可能。其他人则懒洋洋地完全避开预测和分析。而这些人除了意见不一之外,基本上甚至不知道如何互相交谈。
公共许可策略线性上下文匪徒托马斯·克莱恩·布宁(Thomas Kleine Buening),aadirupa saha,Christos dimitrakakis,Haifeng XU神经信息处理系统会议(Neurips),2024年,[PDF],[PDF]逆增强的环境设计 2024, [pdf ] Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation Thomas Kleine Buening , Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu International Conference on Learning Representations (ICLR), Spotlight Presentation , 2024, [pdf ] ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive Non‑Stationary Dueling Bandits Thomas Kleine Buening,Aadirupa Saha人工智能与统计国际会议(AISTATS),2023年,[PDF] minimax -bayes辅助学习Thomas Kleine Buening*,Christos dimitrakakis*,Hannes Eriksson*,Hannes Eriksson*,Hannes Eriksson*,Divya Grover*,Divya Grove*,Emilio Jorge*国际人工智能和人工智能和统计局(A)
将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。