解码人脑一直是神经科学家和人工智能研究人员的标志。重新构建来自脑电脑脑电图(EEG)信号的视觉图像,由于其在脑部计算机接口中的应用,引起了人们的极大兴趣。本研究提出了一种两阶段的方法,其中第一步是获得脑电图衍生的特征,以稳健地学习深度代表,然后将学习的表示形式用于图像产生和分类。我们使用具有监督和对比度学习方法的深度学习体系结构在三个不同的数据集中进行了特征提取管道的普遍性。我们已经执行了零摄影的脑电图分类任务,以进一步支持概括性索赔。我们观察到,与脑电图和图像之间的联合代表学习相比,在单峰设置中仅使用脑电图数据来学习一个单独使用脑电图数据的近距离线性分离的视觉表示。最后,我们提出了一个新颖的框架,将看不见的图像转换为脑电图空间,并以近似值重建它们,从而展示了来自EEG信号的图像重建潜力。我们提出的来自EEG的图像合成方法显示了62。9%和36。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。
Vision语言导航(VLN)要求代理在基于视觉观察和自然语言说明的3D环境中导航。很明显,成功导航的关键因素在于全面的场景理解。以前的VLN代理使用单眼框架直接提取透视视图的2D特征。虽然很简单,但他们为捕获3D几何和语义而努力,导致部分不完整的环境代表。为了实现具有细粒细节的全面3D表示,我们引入了体积环境(VER),将物理世界脱氧于结构化的3D细胞中。对于每个单元格,通过2D-3D采样将多视图2D特征归纳到如此统一的3D空间中。通过对VER的粗略到纤维特征进行推断和多任务学习,我们的代理人可以共同预测3D占用率,3D房间布局和3D边界框。基于在线收集的vers,我们的代理构成了体积状态估计,并构建情节内存以预测下一步。实验结果表明,我们从多任务学习的环境表示导致了VLN的可观绩效提高。我们的模型在VLN基准(R2R,Reverie和R4R)之间实现了最新的性能。
本文介绍了在人机协作背景下代表,推理和交互式学习领域知识的综合体系结构。答案集Prolog是一种非单调逻辑推理范式,用于用不完整的comsense域知识来表示和理由,为任何给定目标计算计划并诊断出意外的观察。基于ASP的推理还用于指导以前未知的动作的互动学习以及编码负担能力,动作前提和效果的公理。此学习将主动探索,反应性动作执行和人类(口头)描述的输入观察以及学习的动作和公理用于后续推理。在模拟机器人上评估了架构,该机器人协助人类在室内域中。
最近,密集的潜在变量模型已显示出令人鼓舞的结果,但是它们的分布式和潜在的代码使它们降低了易于解释,并且对噪声的影响较低。另一方面,稀疏表示更为简约,提供了更好的解释性和噪声稳健性,但是由于涉及的复杂性和计算成本,很难实现稀疏性。在此过程中,我们提出了一种新颖的无监督学习方法,以利用逐渐稀疏的尖峰和平板分布作为我们的先验,以在发电机模型的潜在空间上强化稀疏性。我们的模型由自上而下的发电网络组成,该网络将潜在变量映射到观测值。我们使用最大似然采样来推断发电机后方向的潜在变量,并且推理阶段的尖峰和平板正则化可以通过将非信息性潜在维度推动到零来引起稀疏性。我们的实验表明,学到的稀疏潜在表示保留了大多数信息,我们的模型可以学习解开的语义,并赋予潜在代码的解释性,并增强分类和denosing任务的鲁棒性。
许多科学家 [Lynch,1960;Piaget 和 Inhelder,1967;Siegel 和 White,1975] 已经观察到认知地图被组织成连续的层,并提出对大规模环境的有用且有力的描述的核心要素是拓扑描述。分层模型包括从局部感官信息中识别和辨认地标和地点;路线控制知识(从一个地方到另一个地方的过程);连通性、顺序和包含的拓扑模型;以及形状、距离、方向、方位以及局部和全局坐标系的度量描述。看来,认知地图的分层结构是人类在大规模空间中稳健表现的原因。我们的方法试图将这些方法应用于机器人探索和地图学习问题。我们定性方法中对环境的核心描述是拓扑模型,如 TOUR 模型 [Kuipers,1978]。该模型由一组节点和弧组成,其中节点代表环境中可识别的位置,弧代表连接它们的行进路径。节点和弧是根据机器人的感觉运动控制能力程序性定义的。度量信息添加到拓扑模型之上。
从网络数据中学习可概括的视觉表示已为机器人技术带来了令人鼓舞的结果。然而,预循环方法着眼于预训练2D表示,是应对闭塞的优势,并在复杂的3D场景中准确地将对象定位。同时,3D代表学习仅限于单对象。为了解决这些局限性,我们引入了一个名为Sugar的机器人技术的新型3D预训练框架,该框架通过3D点云捕获对象的语义,几何和负担性能。我们强调了3D表示学习中混乱场景的重要性,并自动构建一个受益于模拟中无需成本监督的多对象数据集。Sugar采用一种多功能变压器的模型来共同解决五个预训练任务,即用于语义学习的跨模式知识蒸馏,以掩盖点建模,以取消几何结构,掌握姿势合成以进行对象负担,3D实例分割和引用表达地面以分析杂乱无章的场景。我们对三个与机器人相关的任务进行了学习的代表,即零射击3D对象识别,引用凸起的接地和语言驱动的机器人操作。实验结果表明,糖的3D表示优于最先进的2D和3D表示。
除了讨论预先传播的论文(在“论文讨论小组” A和B中)和四个主题演讲外,学校的参与者还将形成(2-3)跨学科小组(“小组工作”),以研究其选择的主题或领域(理想情况下是与参加学校的成年人的使命相关的对象)。他们将被要求考虑三个广泛的问题,同时着重于所选领域的特定转换。这样做,他们将被邀请反思想象的概念的作用,以及对他们不同学科的贡献的作用。
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
摘要。人类活动识别在包括医疗保健和智能家居在内的各个领域都起着至关重要的作用。随着配备环境传感器的智能房屋的越来越多,人们对利用人工智能技术的兴趣越来越兴趣,以理解和认识到这些环境中的人类活动。但是,环境传感器收集的数据的规则和嘈杂性质提出了独特的挑战。为了应对这些挑战,我们建议使用接受传感器激活序列训练的预训练的嵌入式嵌入,通常是基于类似于GPT的架构的算法,以证明在智能家庭中日常生活的分类表现。此外,我们利用从一个环境中获得的知识来增强另一个环境的活动识别,研究转移学习的概念。结果表明,GPT变压器解码器的方法在多个数据集的精度和平衡精度方面优于其他算法。这些发现还突出了转移学习的潜力,从干净且大的数据集中,GPT跨解码器预先训练的嵌入在各种情况下显示出令人鼓舞的结果。