摘要 - 我们在此工作边缘计算(EC)中考虑在多租户环境中:资源所有者,即网络运营商(NO),虚拟资源使资源虚拟化,并允许第三方服务提供商(SPS-租户)运行他们的服务,这可以多样化,并且具有异质要求。由于确保保证,NO无法观察到已加密的SPS的性质。这使资源分配决策具有挑战性,因为它们必须仅基于观察到的监视信息进行。我们专注于一个特定资源,即缓存空间,部署在某个边缘节点中,例如一个基站。我们研究了关于如何在几个SP中分区缓存的决定,以最大程度地减少上游流量。我们的目标是使用纯粹的数据驱动的,无模型的增强学习(RL)优化缓存分配。与RL的大多数应用程序不同,RL的大多数应用程序在模拟器上学习了决策策略,我们认为没有以前的知识可用于构建这种模拟器。因此,我们以在线方式应用RL,即通过直接扰动实际系统并监视其性能的变化来学习策略。由于扰动会产生虚假的流动,因此我们也限制了它们。我们在模拟中表明,我们的方法迅速融合了理论最佳,我们研究了它的公平性,对几种情况特征的敏感性,并将其与最先进的方法进行比较。我们的代码复制结果可作为开源。1
主要关键词