摘要:基于模型的规划对于提高强化学习 (RL) 中的样本效率和泛化能力大有裨益。我们表明,基于能量的模型 (EBM) 是一种很有前途的模型,可用于基于模型的规划。EBM 自然支持在给定起始和目标状态分布的情况下推断中间状态。我们提供了一种在线算法来训练 EBM,同时与环境交互,并表明 EBM 允许比相应的前馈网络更好的在线学习。我们进一步表明,EBM 支持最大熵状态推断,并且能够生成不同的状态空间计划。我们表明,纯粹在状态空间中进行推断(没有规划动作)可以更好地泛化到环境中以前看不见的障碍物,并防止规划者通过应用非典型动作序列来利用动态模型。最后,我们表明,在线 EBM 训练自然会导致有意计划的状态探索,其表现明显优于随机探索。
摘要 — 本文研究了网络系统的实时优化问题,并开发了在线算法,无需明确了解系统模型即可引导系统朝着最佳轨迹运行。该问题被建模为具有时变性能目标和工程约束的动态优化问题。算法的设计利用了在线零阶原始对偶投影梯度法。具体而言,涉及目标函数梯度的原始步骤(因此需要网络系统模型)被其零阶近似所取代,并使用确定性扰动信号进行两个函数评估。评估是使用系统输出的测量值进行的,从而产生反馈互连,其中优化算法充当反馈控制器。本文对这种互连的稳定性和跟踪特性提供了一些见解。最后,本文将该方法应用于电力系统中的实时最优潮流问题,并展示了其在 IEEE 37 节点配电测试馈线上进行参考功率跟踪和电压调节的有效性。
摘要 — 迁移学习不是从头开始训练,而是利用现有模型来帮助训练更准确的新模型。不幸的是,在分布式云边缘网络中实现迁移学习面临着关键挑战,例如在线训练、不确定的网络环境、时间耦合控制决策以及资源消耗和模型准确性之间的平衡。我们将分布式迁移学习表述为长期成本优化的非线性混合整数程序。我们通过利用保留先前决策和应用新决策之间的实时权衡来设计多项式时间在线算法,这些算法基于每个单个时隙的原始对偶一次性解决方案。在协调模型放置、数据调度和推理聚合的同时,我们的方法通过结合现有的离线模型和正在训练的在线模型来生成新模型,这些模型使用基于动态到达的数据样本的推理自适应更新的权重。我们的方法可以证明,事后看来,推理错误的数量不超过单个最佳模型的常数倍,并且实现了总成本的恒定竞争比。评估证实了我们的方法与其他方法相比在实际跟踪中具有更优异的性能。
摘要 - 非形态硬件努力模仿大脑样神经网络,因此有望在时间数据流上进行可扩展的低功率信息处理。然而,要解决现实世界中的问题,需要培训这些网络。然而,对神经形态底物的培训会由于特征的特征和基于梯度的学习算法所需的非本地计算而产生显着的挑战。本文为神经形态底物设计实用的在线学习算法设计了数学框架。特别是,我们显示了实时复发学习(RTRL)之间的直接联系,这是一种用于计算常规复发神经网络(RNN)(RNN)的在线算法,以及用于培训跨度尖峰神经网络(SNNS)的生物学上可行的学习规则。此外,我们激励基于障碍物雅各布人的稀疏近似,从而降低了该算法的计算复杂性,减少了非本地信息的要求,并凭经验可以提高学习良好的学习性能,从而提高了其对神经形状子形态的适用性。总而言之,我们的框架弥合了深度学习中突触可塑性与基于梯度的方法之间的差距,并为未来神经形态硬件系统的强大信息处理奠定了基础。
我对理论计算机科学非常感兴趣,尤其是对算法的设计和分析。我的主要研究推力是不确定性下的图算法和算法。在图算法中,我对网络流,图形切割和连接性的研究感兴趣。最近的一些亮点包括打破60年历史的全对最大流量的立方运行时屏障以及用于顶点连接性和(确定性)最低速度的最接近最佳算法。在不确定性的算法中,我对在线算法的经典竞争分析以及利用机器学习来克服最坏情况绩效障碍感兴趣。最近的亮点包括通过分层LP的K -Server和K -Taxi的多结构竞争比,以及用于基本在线问题的学习效果算法的几种结果。我也对近似算法,组合优化和算法游戏理论感兴趣。除了理论研究外,我还对实践问题的算法设计感兴趣。这包括用于在线搜索,广告,社交网络和电子商务的算法,计算机网络的设计和管理,数据库管理和查询处理算法以及具有人工智能中应用的算法。我已经与这些领域的研究人员合作设计了实用,可实施且可扩展的算法。这项工作的大部分已在应用领域的同行评审场所发表,其中一些已导致了原型或产品的专利和部署。
摘要:适当控制广泛分布的数据中心的功耗变得越来越困难。由于需要运行这些数据中心 (DC) 来处理传入的用户请求,因此能源消耗很高。数据中心电力成本的上升是云服务提供商 (CSP) 面临的一个当代问题。最近的研究表明,地理分布的数据中心可以使用批发电力市场中的可变电价和定价衍生品来分担负载并节省资金。在本研究中,我们评估了在考虑可变系统动态、电价波动和可再生能源的同时降低地理分散数据中心的能源支出的问题。我们提出了一种基于可再生能源的负载平衡,采用基于贪婪方法的期权定价 (RLB-Option) 在线算法进行交互式任务分配以降低能源成本。RLB-Option 的基本思想是使用可用的可再生能源来处理传入的用户请求。相反,对于未处理的用户请求,将在每个时隙使用棕色能源或看涨期权合约来处理工作负载。我们将地理分布式 DC 中的能源成本最小化公式化为一个优化问题,同时考虑地理负载平衡、可再生能源和衍生品市场的期权定价合同,同时满足一组约束条件。我们证明 RLB-Option 可以将 DC 的能源成本降低到接近具有未来信息的最佳离线算法的水平。与标准工作负载分配方法相比,RLB-Option 在基于真实数据的实验评估中显示出显著的成本节省。
摘要 — 针对由太阳能光伏发电和电池储能 (BES) 组成的住宅光伏 (PV)-储能混合系统,提出了一种具有随机优化的计算效率高的实时能源管理方法。由于负载和太阳能发电的随机性,现有的 BES 提前日调度离线能源管理方法会实时遭受能源损失。另一方面,典型的在线算法无法为业主提供最小化电力购买成本的最佳解决方案。为了克服这些限制,我们提出了一个综合能源管理框架,该框架由离线优化模型和基于规则的实时控制器组成。优化是在滚动时域内进行的,使用基于深度学习的长短期记忆方法,根据负载和太阳能发电预测曲线进行滚动时域优化,以降低每日电力购买成本。优化模型被设计为一个多阶段随机规划,其中我们使用滚动时域中的随机对偶动态规划算法以固定间隔更新 BES 调度的最佳设定点。为了防止在最佳解决方案更新间隔期间发生能量损失,我们在电力电子转换器控制级别的优化层下方引入了一个基于规则的控制器,时间分辨率更高。使用 OPAL-RT 模拟器中的实时控制器硬件在环测试平台对所提出的框架进行评估。与其他现有能源管理方法相比,所提出的实时方法可有效降低净购电成本。
模仿学习(IL)旨在通过从演示中学习来模仿专家在顺序决策任务中的行为,并已广泛应用于机器人技术,自动驾驶和自动回归文本生成。最简单的IL方法是行为克隆(BC),被认为会导致样本复杂性,并对问题视野的不利二次依赖性依赖,激发了各种不同的在线算法,这些算法在对数据的更强假设以及学习者访问专家的访问方面具有改进的线性范围依赖性。我们从学习理论的角度重新审视了离线和在线IL之间的明显差距,重点是可实现的/良好的设置,其中包括一般政策类别,包括深层神经网络。通过对对数损失的行为克隆进行新的分析,我们表明,只要(i)控制累积回报的范围,并且(ii)控制政策类别的监督学习复杂性的适当概念。将我们的结果专门用于确定性的固定策略,我们表明,离线和在线IL之间的差距比以前想象的要小:(i)可以在密集的奖励下实现离线IL的线性依赖性(与以前仅在线iL中可以实现的知识相匹配); (ii)在政策类别的情况下,在线IL也无法随着对数损失的影响,即使在Manign MDP中也无法改善离线IL。我们通过对标准RL任务和自回归语言生成的实验来补充我们的理论结果,以验证我们发现的实际相关性。