从演示和成对偏好推断奖励函数是将强化学习 (RL) 代理与人类意图相结合的良好方法。然而,最先进的方法通常专注于学习单一奖励模型,因此很难权衡来自多位专家的不同奖励函数。我们提出了多目标强化主动学习 (MORAL),这是一种将社会规范的不同演示组合成帕累托最优策略的新方法。通过维持标量权重的分布,我们的方法能够以交互方式调整深度 RL 代理以适应各种偏好,同时无需计算多个策略。我们在两种场景中通过实证证明了 MORAL 的有效性,这两种场景模拟了交付和紧急任务,需要代理在存在规范冲突的情况下采取行动。总的来说,我们认为我们的研究是朝着具有学习奖励的多目标 RL 迈出的一步,弥合了当前奖励学习和机器伦理文献之间的差距。
在许多多代理交互的环境中,每个代理的最佳选择在很大程度上取决于其他代理的选择。这些耦合的相互作用可以用一般和差分博弈很好地描述,其中玩家有不同的目标,状态在连续的时间中演变,最佳博弈可以用许多均衡概念之一来表征,例如纳什均衡。问题通常允许多重均衡。从这种博弈中的单个代理的角度来看,这种多重解决方案可能会带来其他代理行为方式的不确定性。本文提出了一个通用框架,通过推理其他代理所追求的均衡来解决均衡之间的歧义。我们在多人人机导航问题的模拟中演示了这个框架,得出两个主要结论:首先,通过推断人类所处的平衡状态,机器人能够更准确地预测轨迹;其次,通过发现并使自己适应这种平衡状态,机器人能够降低所有玩家的成本。
西巴尔干各经济体报告的事件信息存在差异。有些主管部门有几年前官方记录的事件记录,有些主管部门最近才开始对不同事件类型进行分类,还有些主管部门仍然缺乏足够的数据来生成有关以前事件的相关报告。这阻碍了比较和从定量方面生成更全面的国家趋势的可能性。进一步的差异涉及国家主管部门和 CERT 呈现记录事件汇总数据的方式。也就是说,根据可用的信息来源,国家 CERT 会按事件类型、威胁行为者和/或受影响的 IP 地址数量对事件进行聚类。这限制了推断整个地区更具体的总体趋势的可能性。因此,项目团队依靠通过采访国家主管部门和 CERT 代表获得的信息来获得定性见解,以补充初步调查结果。
西巴尔干各经济体报告的事件信息存在差异。有些主管部门有几年前官方记录的事件记录,有些主管部门最近才开始对不同事件类型进行分类,还有些主管部门仍然缺乏足够的数据来生成有关以前事件的相关报告。这阻碍了比较和从定量方面生成更全面的国家趋势的可能性。进一步的差异涉及国家主管部门和 CERT 呈现记录事件汇总数据的方式。也就是说,根据可用的信息来源,国家 CERT 会按事件类型、威胁行为者和/或受影响的 IP 地址数量对事件进行聚类。这限制了推断整个地区更具体的总体趋势的可能性。因此,项目团队依靠通过采访国家主管部门和 CERT 代表获得的信息来获得定性见解,以补充初步调查结果。
拉动开放式橱柜和抽屉在感知中提出了许多困难的技术挑战(从车载传感器中推断物体的发电参数),计划(制定符合紧密任务约束的运动计划)和控制(在环境上施加力时进行控制和维护接触))。在这项工作中,我们构建了一个端到端系统,该系统使商品机械手操纵器(Stretch Re2)能够在以前看不见的现实世界环境中拉出开放式橱柜和抽屉。我们对该系统进行了4天的现实世界测试,这些系统涵盖了来自13个不同现实世界环境的31种不同对象。我们的系统在未看到的环境中开放新颖的机柜和抽屉的成功率为61%。对故障模式的分析表明,感知错误是我们系统最重大的挑战。我们将开放源代码和模型,供其他人复制并在我们的系统上构建。
由于模型优化和客观现实之间的潜在不匹配,供应链库存管理中的有效概括是具有挑战性的。很难知道现实世界是如何配置的,因此很难为其最佳地训练代理。我们通过结合离线培训和在线适应来解决此问题。代理进行了离线训练。在在线适应阶段,代理商搜索上下文最大化奖励。代理商在网上迅速适应,并在了解上下文A-Priori的情况下实现了表现。特别是,他们在不推断正确的上下文的情况下进行了最佳行动,而是找到适合奖励最大化的环境。通过使代理商能够利用离线培训和在线适应,我们提高了他们在未知环境中的效率和有效性。该方法具有更广泛的潜在应用,并有助于使RL算法在实际情况下有用。我们已根据https://github.com/abatsis/supply_chain_few_shot_rl发布了本文的代码。
从神经活动中解码感觉刺激可以提供有关神经系统如何解释物理环境的洞察力,并促进了脑机界面的发展。然而,神经解码问题仍然是一个重大的公开挑战。在这里,我们提出了一种有效的非线性解码方法,用于从视网膜神经节细胞(RGC)的尖峰活动中推断自然现场刺激。我们的方法使用神经网络来改善准确性和可扩展性的现有解码器。对> 1000个猕猴RGC单元的实际视网膜尖峰数据进行了训练和验证,解码器证明了非线性计算的必要性,以准确地解码视觉刺激的精细结构。具体来说,自然图像的高通空间特征只能使用非线性技术解码,而低通功能可以通过线性和非线性方法很好地提取。一起,这些结果在解码大量神经元种群的自然刺激方面推进了最新的状态。
生成价值一致行为的重大挑战之一不仅是考虑指定的用户目标,还包括任何隐式或未指定的用户要求。这种隐式要求的存在可能在用户对任务模型的理解可能与代理商的模型中不同的设置中尤为普遍。在这种情况下,用户可能会错误地期望某些代理行为是不可避免的或保证的。本文通过捕获未指定的用户子目标的可能性在捕获作为马尔可夫决策过程(MDP)并根据需要查询的任务中捕获未指定的用户子目标的可能性来解决这种期望不匹配。我们的方法识别瓶颈状态,并将其用作候选潜在的隐式子目标。然后,我们引入了一种查询策略,该策略将产生确定实现基本目标的政策挑战所需的最少查询数量。我们的经验评估证明了我们方法在推断和实现各种任务中未阐明的目标方面的有效性。
概述:数据经纪生态系统是一个价值数十亿美元的产业,由众多公司组成,这些公司收集、推断、汇总,然后出售、授权和共享美国人的数据,以及提供基于这些数据的技术服务。在之前发现数据经纪商在宣传有关现役和退役美国军人的数据后,本研究试图了解 (a) 数据经纪商收集和出售有关军人的哪些类型的数据,以及 (b) 外国行为者(例如外国敌对政府)可能获取这些数据来破坏美国国家安全的风险。这项研究涉及抓取数百个数据经纪商网站以查找“军人”和“退伍军人”等术语,联系来自美国域名的美国数据经纪商以查询和购买有关美国军方的数据,以及联系来自 .asia 域名的美国数据经纪商以查询和购买相同的数据。最后讨论了美国军人和美国国家安全面临的风险,并提出了联邦政府应对当前风险的政策建议。目录:执行摘要 3
自动蛋白功能预测涉及从其已知序列推断蛋白质的功能。此函数通常由从预定义的基因本体论中提出的术语列表来描述,该术语是在层次上组织的。预测蛋白质功能需要为每个项做出二进制决策,确定它是否适用于给定序列。论文将主要探讨深度转移学习的应用,并利用蛋白质级信息和注释之间的相互关系。要求:1。了解深度学习和转移学习。2。在自动化蛋白质功能预测中熟悉当前的最新技术,特别强调了最近的深度学习工具。3。进行文献搜索方法AD 1和2。4。设计自己的算法 /修改现有算法,以自动预测蛋白质功能,并深入转移学习。5。将您的解决方案与基本基准测试(BLAST + KNN,PRIORS)或搜索中讨论的方法与可用实现进行比较,使用传统的评估分类器质量的度量(精度,回忆,F1)。