建筑原则。我们开发了一个模块化系统,解决了任务基础的关键挑战:(i)(ii)开放世界人类环境中使用单眼相机进行视觉导航,并具有(iii)低频,高潜伏期感应和控制。不可靠的传感器流与嘈杂的本体感受相结合,在单眼环境中具有准确的深度和比例估计,具有挑战性。要解决(i),选择了依靠语义图像提示,而不是放弃3D度量几何估计,而是专注于2D图像空间中的遍历性估计。为了概括(ii)的不同场景和外观变化,使用了大规模数据集上预测的视觉特征,并在frodobots-2k数据的精选部分上进行了微调。由于硬件限制和延迟的不可预测性,(iii)很难直接解决。该系统的重点是处理次优路径找到引起的导航故障和较差的Trajectory跟踪,这是由于通信不良引起的。这是通过使用可靠的故障检测和恢复来增加导航管道来实现的。在高水平上,系统(图1)由受到启示,控制和故障检测和恢复模块组成。感知模块估计了从RGB输入的遍历性,并且还向下一个路点发出以自我为中心的方向向量。控制模块选择与Waypoint向量对齐并生成控制命令的基因差异可行的轨迹。感知。故障检测和恢复模块是对原始RGB进行的监督监视器,并预测从感知到检测失败的遍历性,覆盖控制模块以在必要时执行启发式恢复行为。鉴于需要在开放世界的人类环境中进行操作而没有由于单眼设置而没有可靠的深度感应,因此使用了基于场景语义的视觉遍历性预测。感知模块将RGB图像作为输入,并根据输入图像输出遍历性掩码,并在[0,1]中以遍历性得分为单位。在内部,快速的遍历性估计器会产生一个初始面膜,然后通过聚类启发式方法进一步进行后处理,以识别并强烈惩罚可能的障碍。估算器使用验证的恐龙视觉特征,可以对各种环境进行强有力的概括,并允许进行样品有效的训练和填充来适应新场景。在捕获不同地形上的偏好时,要训练轮式Frodobot配置的估计器,这是一种自动从Frodobots-2K
编辑场景图像在各个领域都非常重要,从娱乐,专业摄影和广告设计开始。内容编辑可以为观众创造沉浸式和迷人的体验,有效地传达艺术愿景并实现所需的美学结果。随着深层生成建模的快速发展,已经进行了许多尝试有效地编辑图像的尝试。但是,他们遇到了阻碍潜力的局限性。以前的方法主要集中在2D图像空间中的场景编辑上。他们通常依靠生成先验,例如gan和扩散模型(DM),并采用了诸如修改跨注意机制的技术[Hertz等。2022,2023],以及网络参数的优化[Chen等。2023a; Gal等。2022; Kawar等。2023; Kim等。2022; Ruiz等。2023]在场景图像中编辑外观和对象身份。尽管已做出一些努力将这些方法扩展到3D编辑,但它们忽略了3D提示,并在保持3D一致性方面构成了挑战,尤其是在更改摄像头姿势时。此外,这些方法通常集中在全球场景上,并且缺乏准确地解开对象的能力,从而导致对3D级别对单个对象的控制有限。为了编辑任何场景图像并启用对场景及其单个对象的3D控制,我们提出了3DITSCENE,这是一个新颖的场景编辑框架,该框架利用了新的场景表示形式,语言指导的散布高斯散布。2022; Rombach等。具体而言,给定的图像首先投影到3D高斯人中,这些高斯人通过2D生成的先验进一步完善并富集[Poole等。2022]。因此,我们获得了一个综合的3D场景表示,该表示自然可以为给定图像提供新的视图综合。此外,剪辑中的语言特征被蒸馏到相应的3D高斯人中,将语义引入3D几何形状。这些语义3D高斯人有助于将单个对象从整个场景表示中删除,从而导致语言引导的散布的高斯人进行场景分解。他们还允许更具用户友好的交互作用,即用户可以通过文本查询特定的对象或兴趣。为此,我们的3DITSCENE可实现从2D到3D的无缝编辑,并允许在全球和个人层面上进行修改,使创建者能够精确控制场景组合和对象级的编辑。我们将管道称为3DITSCENE。与以前的工作不同,该作品着重于解决单一类型的编辑,3DITSCENE INTETE-GRETS编辑要求在统一框架内。我们的预告片数字通过展示其在不同场景图像中的应用来演示3DITSCENE的多功能性。我们在各种环境下对3DITSCENE进行了评估,结果证明了基线方法的显着改善。
可负担性引导的加固学习通过视觉提示2023年5月至2024年6月,斯坦福人工智能实验室(IRIS LAB)。由Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn网站,纸张•实施方法利用视觉语言模型(VLMS)为在线增强学习定义密集的奖励。•开发了用于从VLM中提取负担能力表示的管道,以在图像空间中生成密集的路线轨迹。•在桥接数据上进行了预定的策略,对寡妇机器人的实施数量适中的示范进行了审核。通过耳朵播放它:通过视听模仿学习在2021年3月 - 2022年6月的斯坦福人人工智能实验室(IRIS实验室)中学习技巧。由苏拉吉·奈尔(Suraj Nair),切尔西·芬恩(Chelsea Finn)网站,纸张•实施的多模式模仿学习对视觉,音频和记忆的学习,以促进部分观察到的任务。•与Mujoco,Robosuite和Pytorch开发了行为克隆算法,用于在Franka-Emika Panda机器人上实施。•建立的管道以通过专家示范和在线征服人类干预措施来离线训练政策。COURSEWORK Graduate Computer Science : CS 168 Modern Algorithms, CS 205L Mathematical Machine Learning Methods, CS 224N Natural Language Processing, CS 229 Machine Learning, CS 231N Computer Vision, CS 326 Advanced Robotic Manipulation, CS 330 Deep Multi- task & Meta-Learning, CS 422 Interactive & Embodied Learning, OSPOXFRD 196Q Graph Representation Learning (Oxford Study Abroad)本科计算机科学:CS 103离散数学,CS 107计算机组织与系统,CS 109概率,CS 110计算机系统原理,CS 157计算逻辑,CS 161算法分析,CS 221人工智能数学原理:人工智能数学:51 MATHICE CALLIAD CALLIVER CALCAL CALCAL CALCAL CALLUS CALCAL CLATIVER CALLUL 52 CALLUL 52 CALLUL 52基理论,数学101数学发现实验室:概率理论和马尔可夫过程,数学151概率理论(自学),Phil 150数学逻辑,Phil 151 Metalogic,Phil 152可计算理论理论哲学:Phil 20N AI哲学:Phil 186 Mind哲学,Symsys Mindys 202 Invisorys of Invisorness of Semsys of Semsys of Seysy of Seensy of 205 Iccophens of 207 Cepply of Secipy of Seciphens of 207 Compection,207 OSPOXFRD 199A心理哲学(牛津学习国外)心理学与语言学:心理140心理语言学,心理240A好奇心人工智能中的好奇心,语言学家130A语义与务实语言学,语言学家150社会语言学,CS 384在伦理和语言处理中的cs 384 eminar和社会问题