舞蹈机器人领域吸引了众多领域的关注。例如,索尼推出了一款名为 QRIO 的人形机器人(Geppert 2004),它可以通过模仿人类的舞蹈以高度协调的方式与多个单元一起跳舞。Nakaoka 等人探索了一种动作捕捉系统来教机器人 HRP-2 跳日本传统民间舞蹈(Nakaoka 等人 2005)。尽管之前的系统取得了成功,但它们通常要么局限于一组预先定义的动作(伴随着音乐),要么根据外部刺激表现出很小的变化。为了提高舞蹈的变化性,Bi 等人提出让有腿的机器人以多样化的方式与音乐同步跳舞(Bi 等人 2018)。他们根据音乐的节拍从舞蹈动作库中挑选动作,创作了一种舞蹈编排。舞蹈动作包括各种踏步和基本动作。从库中挑选动作的过程由马尔可夫链定义,它取决于先前挑选的舞蹈动作和当前音乐节奏。在那些基于概率图模型的方法中,由于概率模型在表示舞蹈动作之间的逻辑关系方面的局限性,通常会选择与先前动作不合理的动作。在本演示中,我们设计了一个名为 Plan2Dance 的系统,以基于音乐创作舞蹈编排。通过考虑动作的时间要求,基于基本舞蹈动作的关系构建了一组动作模型(以 PDDL(Fox and Long 2003)语言的形式)。
阻止了戏剧性的讨论或使用类型娱乐性的亵渎和淫秽性。新闻或亵渎和淫秽的报道。基于类型的亵渎,手势和其他可能强大的动作的使用,但可能会被期望是普遍接受的语言和行为,以及高风险的淫秽和亵渎含量。
在日常行为中,我们会执行许多包含一系列动作的目标导向手动任务。然而,关于此类任务中预测控制机制的发展方面,尤其是支持儿童连续手动动作的大脑激活方面,我们了解的有限。我们在青春期早期(11-14 岁)正常发育儿童中调查了这些问题,并与之前收集的成人数据进行了比较。参与者躺在磁共振成像 (MRI) 扫描仪中,使用手持操纵器将计算机屏幕上的光标移向连续呈现的目标。下一个目标要么在完成当前目标后显示(单目标条件),在这种情况下无法提前计划即将到来的动作,要么提前显示(双目标条件),这允许使用预测控制策略。成年人在双目标条件下完成的目标比在单目标条件下完成的目标多,显示出有效的预测控制策略。相比之下,儿童在两个目标条件下完成的目标比在单个目标条件下完成的目标要少,而且由于抑制过早动作的能力有限,实施预测策略存在困难。与成人相比,儿童大脑中激活程度更高的区域包括前额叶和后顶叶区域,这表明由于抑制挑战,儿童对高级认知处理的需求增加。因此,对于连续手动任务中的预测机制,关键发展可能发生在青春期早期之后。这比之前报告的其他手动任务的年龄要晚,这表明预测阶段的转变很难掌握。
在离线增强学习(RL)中,通过离散时间钟形方程更新值函数通常会由于可用数据范围有限而遇到挑战。这种限制源于Bellman方程,该方程无法准确预测未访问的状态的价值。为了解决这个问题,我们引入了一种创新的解决方案,该解决方案桥接了连续和离散的RL方法,利用了它们的优势。我们的方法使用离散的RL算法从数据集中得出值函数,同时确保该函数的第一个衍生衍生物与汉密尔顿 - 雅各布·贝尔曼在连续RL中定义的状态和动作的局部特征与状态和动作的局部特征一致。我们为确定性策略梯度方法和随机性政策梯度方法提供了实用算法。在D4RL数据集上进行的实验显示,合并一阶信息可显着改善离线RL问题的政策性能。
本文提出了一个新的算法追索(AR)框架,即使在缺少值的情况下也可以工作。AR旨在提供一个追索行动,以改变分类器给定的不需要的预测结果。现有的AR方法假设我们可以访问有关输入实例功能的完整信息。但是,我们经常在给定实例中遇到缺失值(例如,由于隐私问题),以前的研究没有讨论这种实际情况。在本文中,我们首先从经验和理论上表明了一种具有单一插补技术的天真方法无法获得有关其有效性,成本和特征要改变的良好动作的风险。为了减轻这种风险,我们通过纳入多个插补的想法来制定为给定的不完整实例获得有效和低成本动作的任务。然后,我们提供了一些关于任务的理论分析,并提出了基于混合企业线性优化的实用解决方案。实验结果证明了与基准相比,我们方法在缺少值的情况下的功效。
企业越来越多地利用人工智能来协助或取代人类任务。然而,人工智能也可以训练人类,使他们变得更好。我们研究人工智能的指导作用如何改善人类在专业围棋比赛中的决策能力,其中人工智能围棋程序 (APG) 出人意料地超越了最优秀的人类选手,超越了人类数千年来积累的最佳知识和技能。为了分离从人工智能学习的效果,我们在 APG 首次公开发布之前和之后比较了人类动作的质量与人工智能的卓越解决方案。我们对 25,033 场比赛中的 750,990 步动作的分析表明,APG 的训练显着提高了玩家的动作质量 - 减少了错误数量和最关键错误的严重程度。这种改进在游戏的早期阶段最为明显,因为此时不确定性较高。此外,年轻玩家比年长玩家受益更多,这表明在从人工智能中学习方面存在代际不平等。
