Andreas,J。,Klein,D。和Levine,S。(2017)。 模块化多任务增强措施学习政策草图。 Law,M.,Russo,A。和Broda,K。(2015)。 用于学习答案集程序的ILASP系统。 Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。 MDP和半MDP之间:增强学习中时间抽象的框架。 Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A. (2018)。 使用奖励机进行高级任务规范和强化学习中的分解。Andreas,J。,Klein,D。和Levine,S。(2017)。模块化多任务增强措施学习政策草图。Law,M.,Russo,A。和Broda,K。(2015)。 用于学习答案集程序的ILASP系统。 Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。 MDP和半MDP之间:增强学习中时间抽象的框架。 Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A. (2018)。 使用奖励机进行高级任务规范和强化学习中的分解。Law,M.,Russo,A。和Broda,K。(2015)。用于学习答案集程序的ILASP系统。Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。MDP和半MDP之间:增强学习中时间抽象的框架。Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A.(2018)。使用奖励机进行高级任务规范和强化学习中的分解。
图形神经网络何时有助于节点分类?在节点可区分性上研究同质原理第37届神经信息处理系统会议https://arxiv.org/abs/2304.14274 Luan,S.,Hua,Hua,C.,Xu,Xu,M.,Lu,M.,Lu,Lu,Q.
Adam Strzelczyk,德国Adolfo Mazzeo,意大利Agne Stuukiene,英国Alberto Alberto vigrig,意大利爱丽丝·阿斯科里(Alice Accori)意大利意大利意大利的瑞士安吉拉·坎多奇(Angela Comanducci),意大利安娜·布鲁伊斯(Anna Bersano),荷兰荷兰安东尼奥·鲁斯索(Antonio Russo),意大利安东尼奥·苏迪(Antonio Ass)鲁斯塔莫娃(Rustamova),乌兹别克斯坦Chiara Zanetta,意大利意大利克里斯托夫·斯坎金
i提出了1个反对银,辛格,普雷普和萨顿·西尔弗等人提出的假设的论点。(2021):奖励最大化不足以解释与自然和人工智能有关的许多活动,包括知识,学习,感知,社会智力,进化,语言,概括和模仿。我表明,这种还原性的卢克鲁姆具有其智力起源,这是经济经济的政治经济学,并且与行为主义的激进版本重叠。我展示了为什么强化学习范式在某些实际应用中证明了其有用性,但它是智力的不完整框架 - 自然和人为的。智能行为的复杂性不仅仅是奖励最大化之上的二阶补充。这个事实对实际上可用,智能,安全和坚固的人工智能代理人的发展具有深远的影响。