物联网 (IoT) 的广泛采用和集成不可避免地导致物联网设备数量的激增。这反过来又导致了大量数据的产生,这些数据需要传输、处理和存储,以便有效地解释和利用。边缘计算已成为一种可行的解决方案,它补充了云,从而使集成的边缘云范式能够成功满足物联网应用的设计要求。绝大多数现有研究都提出了针对单个任务的调度框架,只有极少数研究考虑了更具挑战性的复杂工作负载调度问题,例如跨边缘云环境的工作流。工作流调度是分布式基础设施中的 NP 难题。当调度框架需要协调资源受限且高度分布的边缘云环境中的工作流执行时,情况会变得更加复杂。在这项工作中,我们利用深度强化学习来设计一个能够克服上述挑战的工作流调度框架。与所有现有工作不同,我们设计了一个新颖的分层动作空间,以促进边缘和云节点之间的明确区分。除此之外,还提出了一种基于混合参与者-评论家的调度框架,该框架增强了近端策略优化技术,以有效处理边缘云环境中的复杂工作流调度问题。使用能耗、执行时间、截止日期命中率和完成的作业百分比作为评估指标,将所提出的框架的性能与几种基线算法进行了比较。与时间和能量优化的基线相比,所提出的深度强化学习技术在能耗方面表现更好 56%,在执行时间方面表现更好 46%。这是在保持与能量优化基线相当的能源效率和与时间优化基线相当的执行时间的情况下实现的。因此,结果证明了所提出的技术在建立最小化能耗和执行时间的相互冲突的目标之间的最佳权衡方面的优越性。© 2022 由 Elsevier BV 出版
同行评审出版物 [1] E. Mohammadreza、J. Pacheco、W. Li、J. Lee Hu、H. Chen。“使用离散动作空间中的强化学习对静态恶意软件检测器进行二进制黑盒攻击。” IEEE S&P 深度学习和安全研讨会。2021 年 5 月。 [2] SJ Lee、D. Suri、P. Somani、CL Dean、J. Pacheco、R. Stoner、I. Perez-Arriaga、JW Fisher III、J. Taneja。“概率电力需求预测如何加速清洁可靠电力的普遍使用。” 能源促进经济增长。2021 年 [3] S. Zheng、DS Hayden、J. Pacheco、J. Fisher III。“具有可变成本结构的顺序贝叶斯实验设计。”神经信息处理系统进展。 2020 年。[4] DS Hayden、J. Pacheco、J. Fisher III。“使用李群动力学进行非参数对象和部件建模。”计算机视觉与模式识别会议。2020 年。[5] J. Belden、MM Mansoor、A. Hellum、SR Rahman、A. Meyer、C. Pease、J. Pacheco、S. Koziol 和 TT Truscott。“视觉如何控制密集骑行车队的集体行为。”皇家学会界面杂志。2019 年。[6] J. Pacheco 和 J. Fisher III。“序列决策的变分信息规划。”人工智能与统计国际会议。2019 年。[7] S. Zheng、J. Pacheco、J. Fisher III。“一种稳健的序列信息理论规划方法。”机器学习国际会议。 2018。[8] D. Milstein、J. Pacheco、L. Hochberg、J. Simeral、B. Jarosiewicz、E. Sudderth。“皮质内脑机接口的多尺度半马尔可夫动力学。”神经信息处理系统进展。2017。[9] J. Pacheco 和 EB Sudderth。“蛋白质、粒子和伪最大边际:一种子模块化方法。”国际机器学习会议。2015。[10] J. Pacheco、S. Zuffi、MJ Black 和 EB Sudderth。“保留模式和消息
深度学习在视觉感知,语音识别,自然语言处理和多模式模型等领域取得了巨大的成功,这激发了人们对自主机器人技术革命进步的希望。但是,现实世界中的机器人应用提出了独特的挑战,包括许多可变性来源,高维状态和动作空间,非线性依赖性以及部分遵守性。关键挑战是机器人及其环境的非平稳性,当训练的模型遇到分布外数据时,这会导致性能问题。不像当前的机器学习模型一样,人类有效地适应变化并迅速学习新任务,这是人类思想的认知建筑的能力。这包括利用组合性的系统概括,使人通过重新组合已知组件来理解和操纵新的对象和任务。人的大脑同时采用习惯和受控的处理,并通过系统1和更复杂的,更复杂的,有意识的方式以有意识的方式管理的快速,常规动作来处理系统2 [1] [1],[2](图1)。尽管能力有限,System 2仍可以灵活地解决问题和自我监控。要实现人类般的学习和推理,机器人必须整合因果模型,工作记忆,计划和元认知处理。我主张一种自下而上的方法,通过扩展高成功的系统1处理而无需更改工具,将意识启发的认知功能集成到服务机器人中。我的我设想开发学习感知和计划的方法,使机器人能够处理新颖的情况和自我监测。这可以通过三个特定的研究目标来实现:(i)通过快速,惯常的处理,从原始感觉数据中创建机器人工作空间的结构化表示,以及为这些表示形式学习预测模型以管理常规技能。(ii)通过为工作记忆选择几个元素,学习抽象的预测以及基于推出和搜索的计划操作来确定有意识的预测和计划。(iii)实施有意识的自我监控,以评估对在需要时收集信息并避免危险的预测和学习政策的信心。直观的沉浸式远程敏感系统可以实时运输到偏远地区。
在不断发展的代理生态系统中,我们观察到,自主代理人现在可以以最少的人类监督来运作,实现明确定义的目标,甚至可以管理无许可的加密钱包 - 使他们能够对Human和其他AI代理产生影响。此外,这些代理人越来越利用社交媒体平台(例如Twitter/x)作为一种通信结构,可与人类和同伴自治实体无缝协调。同时,代理商专注于独特的能力或行动空间,创造了经济价值和围绕其专业知识的竞争护士。但是,这种专业化需要多个独立代理之间的协作来解决彼此在知识或功能方面的差距。这可能导致自治业务的出现,在该企业中,集体经济产出超过了每个代理商的贡献的总和。与更常规的基于群体的LLM方法(仔细地协调和触发代理之间的相互作用与规则之间的相互作用)不同,我们认为独立的专业代理可以通过其独特的模型,数据集和动作空间来实现成倍增加的价值。然而,这些试剂的分散和独立性也引入了复杂信息损失的风险 - 无论是由于误解,幻觉还是不完整的数据交换,因为它们不作为单个,紧密耦合的多代理体系结构的一部分。为了应对这些挑战,我们提出了代理商商业协议(ACP),这是一个为多次分散的自主系统设计的标准化框架。ACP利用区块链技术来保护和简化信息交换,同时引入了通过智能合约实施的四相互动模型 - 请求,谈判,交易和评估。这确保了透明,可验证和防篡改的相互作用。至关重要的是,ACP还提议使用评估者的代理商,该评估者审核和验证交易,从而增强信任并促进由一致激励措施驱动的新市场。我们通过一个实践示例来证明ACP的效用,该实例涉及在ACP标准下协调,谈判和交易的专业剂。通过维护实施 - 不足的原则,ACP为自主贸易建立了强大的基础,为各种代理框架和生态系统提供了广泛的适用性。项目网站:http://app.virtuals.io/research/agent-commerce-protocol。
现代大型语言模型(LLM)开发人员通常会设置安全一致性,以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调,其中包括拒绝回答不道德或有害问题的样本。但是,最近的研究发现,LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案,并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而,遗传方法的随机性和随机性质在很大程度上限制了最先进的(SOTA)越狱攻击的有效性和效率。在本文中,我们提出了RL-Jack,这是一种新颖的Blackbox越狱攻击,该攻击由深度增强学习(DRL)提供支持。我们将越狱提示的产生作为搜索问题,并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计,以在越狱背景下提高RL代理的学习效率。值得注意的是,我们设计了一个llm辅助的动作空间,该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训,我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外,我们提出了一种新颖的奖励功能,为代理商获得成功越狱的卑鄙的奖励。通过严格的分析,我们发现RL作为确定性搜索策略,比随机搜索方法(例如遗传算法)更有效,并且具有较小的随机性。通过广泛的评估,我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效,包括大型开源模型(例如Llama2-70B)和商业模型(GPT-3.5)。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性,包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后,我们验证了RL杰克对关键超参数的变化的不敏感性。
词汇表 A A 加权:一种用于获得单个数字的技术,该数字代表包含广泛频率范围的噪声的声压级,其方式近似于耳朵的响应:人耳对所有频率的声音的反应并不相同,在低频和高频下的效率低于中频或语音频率。因此,使用 A 加权会弱化低频和高频。像差:与完美图像再现的任何差异。像差仪:一种用于测量光学像差的仪器。眼科像差仪的开发是为了测量无法通过自动验光仪或更传统的临床方法测量的复杂屈光不正。绝对阈值:导致感觉反应的刺激的最小值。适应:对新的身体和/或环境条件的生理调整(适应)。调节:眼睛的自动对焦过程,有助于在不同观看距离下保持清晰的视网膜图像。消色差:镜片组合(通常接触),可减少色差。声学:与声音或听觉有关。声学显示:呈现声学信息的显示。声场:对特定空间中声音行为的描述;特定开放、部分受限或完全封闭空间中一个或多个声源产生的声压分布。包含声波的空间区域 声阻抗:给定表面上平均的有效声压与流过该表面的声能有效体积速度之比。阻抗的单位是 Pa-s/m 3 或 dyne-s/cm 5 ,称为声欧姆 (Ω)。声学人体模型:人体头部(或人体头部和躯干)的复制品,在耳道中鼓膜位置放置麦克风,用于进行声学测量和声音记录。听神经:[参见听觉神经] 声压:[参见声压] 声反射:中耳肌肉的一种动作,可降低耳朵对高强度刺激的敏感度。声学特征:给定声源的特征声音,可用于识别声源。声波:通过弹性介质传播的机械扰动。声学:声音的产生、传输和接收的科学。执行器:用于或旨在用于移动或控制某物的设备。有源矩阵电致发光 (AMEL):一种电致发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵液晶显示器 (AMLCD):一种液晶显示器,其中每个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵 OLED (AMOLED):一种有机发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。主动降噪 (ANR):通过电子方式将背景噪音的相位反转 180 度并将此反转信号添加到原始噪音中来降低背景噪音的过程。动作空间:个人移动和做出决定的区域(半径 2 米内)。适应:感觉系统对长时间刺激的自动调整。[参见视觉适应和听觉适应]
词汇表 A A 加权:一种用于获得单个数字的技术,该数字代表包含广泛频率范围的噪声的声压级,其方式近似于耳朵的响应:人耳对所有频率的声音的反应并不相同,在低频和高频下的效率低于中频或语音频率。因此,使用 A 加权会弱化低频和高频。像差:与完美图像再现的任何差异。像差仪:一种用于测量光学像差的仪器。眼科像差仪的开发是为了测量无法通过自动验光仪或更传统的临床方法测量的复杂屈光不正。绝对阈值:导致感觉反应的刺激的最小值。适应:对新的身体和/或环境条件的生理调整(适应)。调节:眼睛的自动对焦过程,有助于在不同观看距离下保持清晰的视网膜图像。消色差:镜片组合(通常接触),可减少色差。声学:与声音或听觉有关。声学显示:呈现声学信息的显示。声场:对特定空间中声音行为的描述;特定开放、部分受限或完全封闭空间中一个或多个声源产生的声压分布。包含声波的空间区域 声阻抗:给定表面上平均的有效声压与流过该表面的声能有效体积速度之比。阻抗的单位是 Pa-s/m 3 或 dyne-s/cm 5 ,称为声欧姆 (Ω)。声学人体模型:人体头部(或人体头部和躯干)的复制品,在耳道中鼓膜位置放置麦克风,用于进行声学测量和声音记录。听神经:[参见听觉神经] 声压:[参见声压] 声反射:中耳肌肉的一种动作,可降低耳朵对高强度刺激的敏感度。声学特征:给定声源的特征声音,可用于识别声源。声波:通过弹性介质传播的机械扰动。声学:声音的产生、传输和接收的科学。执行器:用于或旨在用于移动或控制某物的设备。有源矩阵电致发光 (AMEL):一种电致发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵液晶显示器 (AMLCD):一种液晶显示器,其中每个像素由专用电子开关控制,并以矩阵形式(行和列)排列。有源矩阵 OLED (AMOLED):一种有机发光显示器,其中各个像素由专用电子开关控制,并以矩阵形式(行和列)排列。主动降噪 (ANR):通过电子方式将背景噪声的相位反转 180 度并将此反转信号添加到原始噪声中来降低背景噪声的过程。动作空间:个人移动和做出决定的区域(半径 2 米内)。适应:感觉系统对长时间刺激的自动调整。[参见视觉适应和听觉适应]
基于强化学习的建议系统被视为代理,它与外部环境进行交互以完成项目建议任务。该任务被建模为马尔可夫决策过程(MDP),主要元素包括(𝑆,𝐴,𝑃,𝑅,𝛾)。每个元素的具体含义如下:•状态空间𝑆:状态表示用户信息和时间上的历史互动信息,在该信息中,可以通过代理商在时间的推荐操作以及用户的相应反馈来获得用户历史交互信息,并显示了当前时间的用户历史偏好。•动作空间𝐴:指示动作。𝑎表示代理在时间时处于状态时所采取的措施。本文将用户对项目的兴趣的权重作为一个动作,并结合了𝑡中包含的用户的历史偏好,并建议该项目更符合用户的偏好。•状态过渡概率𝑃(𝑠+1 /𝑠𝑠,𝑎):它表达了环境状态模型的变化规则。也就是说,状态的概率分布更改为代理在当前状态𝑠𝑠中接收诉讼之后。在本文中,可以确定的是,如果用户未单击或对任何推荐项目发表评论,则环境状态保持不变。•奖励𝑟:在瞬间,用户根据当前状态和代理商的建议操作𝑎𝑎(即给出了对智能机构推荐的项目的选择或评级)做出相应的反馈。•折现因子𝛾:在加强学习中,当前的奖励价值对最终奖励有不同的影响。在当前时间越近,应获得更多的奖励,而折现因子代表随着时间的推移奖励衰减的速度,而IS的价值范围[0,1]。γ的值越大,随后的将来的奖励就越完整。智能代理从环境的初始状态开始。它通过策略模型π(a | s)进行采样并执行它。环境状态S1根据动作A1的影响,根据内部状态过渡模型P(s'|,A)将变为新状态𝑠2。同时,奖励函数r(𝑠1,𝑎1)向代理发送反馈签名。在这一点上,生成了由序列形成的相互作用发作。以这种方式循环循环,直到达到建议的终止状态。从推荐任务的开始到结束时,产生了一系列有序的发作,以表示代理和环境之间相互作用的轨迹(轨迹)。t表示情节的时间戳号(或步骤号)。建议模型的训练过程是找到一组参数θ代表策略网络以最大化𝐽(𝜋 𝜋),即𝜃 ∗ =𝑎𝑟𝑔𝑚𝑎𝑥𝜃 𝜃(𝜋 𝜋),由为了平衡短期奖励和长期奖励的重要性,互动轨迹的累积累积奖励(折现回报)随着时间的流逝是𝑅(𝜏)= ∑ 𝛾 = 𝛾 𝛾 𝛾 𝛾 𝛾𝑡𝑟𝑡𝑇= 1 = 1。 𝜃(𝑎|𝑠)为了最大化预期的回报(预期回报)𝑅(𝜏),即𝐽(𝜋 𝜋)=𝔼𝜏 𝜏(𝜏)[𝑅(𝜏)],pθ(𝜏)表示轨迹𝜏,θ是策略函数的参数。