SAV系统的动态性质也很重要。例如,时间需求的浓度可能会给乘客带来较长的等待时间,并且系统管理员必须通过为乘客的费用充电或提供激励措施来为其提供措施,或者提供激励措施,以提高系统的性能(就像当前的乘车系统一样(Yang等人。,2020))。为了找到这种措施的最佳解决方案,需要对SAV系统进行动态分析。然而,据作者的知识而言,对此问题的数学可触犯分析非常有限。现有关于SAV系统动态操作管理的研究采用了复杂的方法,例如深厚的增强学习(Xie等人,2023),贝叶斯优化(Liu等人,2024),非平衡模型(Ramezani&Valad-Khani,2023)。它们对于特定情况的最佳解决方案非常有用,但是它们可能不方便地发现一般的理论意义。
现有的先验使用预先训练的重量作为中心,这可能会构成对目标数据适应不足的严重风险。在[ICML2020-LI]中,我们提出了一种步枪方法,该方法会积极忘记通过在细调过程中重新定位完全连接的层所学到的东西,以增强目标适应性。学习过程的稳定性主要是由于模型崩溃或信息理论中输入和输出的异常相互信息。模型崩溃可以通过跨层相互信息的变化来检测。在[ICASSP 2023-LI]中,我们基于信息的感应偏见补充了现有的先验,以偏爱具有稳定信息传播的网络,以降低模型崩溃率并提高模型稳定性。我们进一步开发了具有可牵引概括的新先验,以鼓励微调模型对输入噪声不敏感[NAACL2021-LI]。(用于bert微调的噪声稳定性正则化)
摘要 - 本文探讨了使用自动驾驶汽车来支持电网操作的使用。具有内置的电池和携带额外电池能量存储的能力,自动驾驶汽车数量的增加可能代表了当前在电网中未利用的大量容量。与需要驾驶员的传统电动汽车不同,可以在不干预的情况下执行自动驾驶汽车的操作。指导闲置车辆自主支持电网,我们提出了一种基于易于优化的方法,以有效地将这些“移动电池”整合到网格操作中。在实时操作期间,这些车辆在战略上被路由到针对位置,以维持电力平衡并降低运营成本。数值研究已经确认了提出的算法有效地将自动驾驶汽车整合到常规功率系统操作中的有效性和可扩展性。索引术语 - 无人车,电力系统,运输系统,最佳功率流,混合智能优化
摘要 本文提出了一种稳健的投资和运营模型,以满足与配电系统相连的微电网 (MG) 的电力和热能需求。优化算法决定了热电联产 (CHP)、锅炉、光伏发电和电池储能系统 (BESS) 的最佳投资和运营。对于 BESS,该算法估计最佳储能容量 (MWh) 以及最大每小时输送容量 (MW)。非线性和非凹面热率图由混合整数线性模型重新构建,以获得易于处理和精确的模型。该模型考虑了某些参数的不确定性,使用概率密度函数 (pdf) 来描绘其行为。因此,该问题已使用随机规划方法建模,其目标函数是年度运营成本的预期值。使用真实案例测试该模型,其中两个相邻的消费者共享电力和热能设施,以根据天然气价格情景将总体成本降至最低,最高可达 17%。结果证明了采用不同技术的好处以及所有技术共同运作的协同作用。
马尔可夫决策过程使代理商与其环境之间的非确定性相互作用在可拖动的随机框架内进行建模。每次代理人观察当前状态,并采取行动,从而立即获得奖励。当时代理的目标是优化其预期的累积奖励。在数学上,马尔可夫决策问题是基于动态编程原则解决的,其框架是许多强化学习算法的基础,例如,例如Q-学习算法。有关马尔可夫决策过程的理论,请参见[5,10,25,26],以及[1,6,7,11,11,12,15,20,29,33]有关其应用,尤其是在强化学习领域。在马尔可夫决策问题的经典设置中,给出了基础马尔可夫决策过程的过渡概率的过渡内核。从经济上讲,这意味着代理具有对基本过程的真实分布的了解,这通常在实践中不能做出理由。为了解决这个问题,学者们最近引入了马尔可夫决策问题的强大版本,以说明假定的潜在概率内核可能的误约
参与国家之间,包括对教育的文化态度(例如,詹森,亨特,索尼曼和伯恩斯,2012年;皮尔森,2012年)。数十年来在美国辩论的一个问题是孩子是否在学校里花费足够的时间(Barrett,1990)。尽管与许多其他国家相比,美国儿童每年的上学天数相对较低,在从中等中等教育到下级教育的总教学时间方面,美国却是最高的(经济合作与发展组织,2014年)。然而,在各个国家(以及美国境内的各州),算作官方指导时间的变化。此外,是否按预期使用时间(教学,而不是执行行政或室内管理任务),以及在学校外(例如,家庭作业,毕业后的辅导)上花费了多少额外时间,这也显然也很重要。独立于是否有足够的时间专门用于学院(无论是在学校内外),也许是另一个更可行的问题(以及本文的重点)是如何
概率图形模型(PGM)紧凑地编码一组随机变量的完整关节概率分布。PGM,并已成功地用于计算机视觉中(Wang等,2013),误差校正代码(McEliect等,1998),生物学(Durbin等,1998)等(Durbin等)等。在本文中,我们专注于离散的PGM。对具有可牵引因子1的离散PGM进行近似后验推断的标准方法涉及诸如循环信念传播(LBP)之类的消息通讯算法(Pearl,1988; Murphy等,1999)。lbp在变量和因子图的因子之间传播“消息”。,尽管过去进行了几次尝试(请参阅第2节),但没有建立良好的开源Python软件包可以实现效率和可扩展的LBP用于一般因子图。关键挑战在于设计和操纵Python数据结构,该数据结构包含LBP消息,用于支持具有任意拓扑的大型因子图和
摘要该立场论文报告了知识图联盟工作组中关于可解释的数据和元数据原则的初步讨论,该论文于2024年3月创建。目前,我们正在采取初步步骤来捕获与解释,基础,依赖和信任有关的核心概念;该范围还扩展到潜在的双重概念,例如解释性,可验证性/可重复性,可靠性和可信度。这些初始步骤包括回顾核心概念,因为它们在文献中进行了讨论,并探讨了这些最中心概念的实际上有用的定义。结论之一是,元数据标准将需要适合记录三种基础:知识的基础,依赖基础和信任的基础。目前正在重新设计的中间和域级别的元数据标准正在进行重新设计,以便变得更加模块化,可以计算,可以使人类理解,并且可以调节,这将是我们继续进行工作的建议。在公共存储库上进行了这种Lite(OWL 2 EL)本体的发展,称为MSO-EM:用于建模,模拟,优化(MSO)和认知元数据(EM)的本体论。
摘要 - 基于偏好的奖励学习是一种教授机器人和自主系统的流行技术,人类用户如何希望他们执行任务。以前的作品表明,积极合成偏好查询以最大程度地提高有关奖励函数参数的信息增益可提高数据效率。信息增益标准着重于确定奖励函数的所有参数。这可能会浪费,因为许多参数可能会带来相同的奖励,并且许多奖励可能会导致下游任务中相同的行为。取而代之的是,我们表明可以优化学习奖励功能到行为等价类,例如在行为上诱导相同的排名,对选择的分布或其他相关奖励相似的相关定义。我们引入了一个可捕获的框架,该框架可以捕获相似性的这种定义。我们在合成环境中进行的实验,具有域转移的辅助机器人环境以及使用真实数据集的自然语言处理问题,证明了我们的查询方法的出色性能,而不是最先进的信息增益方法。
目前还没有统一的框架来访问这种不确定的、丰富的异构数据集合,因此研究人员不得不依赖临时工具。特别是,当前试图解决这一任务的工具的一个主要弱点是只开发了非常有限的命题查询语言。在本文中,我们介绍了 NeuroLang,这是一种基于一阶逻辑的概率语言,具有存在性规则、概率不确定性、开放世界假设下的本体集成以及内置机制,可保证对非常大的数据集进行可处理的查询回答。NeuroLang 的主要目标是提供一个统一的框架,无缝集成异构数据(如本体),并通过一组正式标准将细粒度认知领域映射到大脑区域,促进可共享和高度可重复的研究。在介绍该语言及其通用查询回答架构之后,我们讨论了现实世界的用例,展示了 NeuroLang 如何应用于实际场景。