Vision语言导航(VLN)要求代理在基于视觉观察和自然语言说明的3D环境中导航。很明显,成功导航的关键因素在于全面的场景理解。以前的VLN代理使用单眼框架直接提取透视视图的2D特征。虽然很简单,但他们为捕获3D几何和语义而努力,导致部分不完整的环境代表。为了实现具有细粒细节的全面3D表示,我们引入了体积环境(VER),将物理世界脱氧于结构化的3D细胞中。对于每个单元格,通过2D-3D采样将多视图2D特征归纳到如此统一的3D空间中。通过对VER的粗略到纤维特征进行推断和多任务学习,我们的代理人可以共同预测3D占用率,3D房间布局和3D边界框。基于在线收集的vers,我们的代理构成了体积状态估计,并构建情节内存以预测下一步。实验结果表明,我们从多任务学习的环境表示导致了VLN的可观绩效提高。我们的模型在VLN基准(R2R,Reverie和R4R)之间实现了最新的性能。
我们介绍了Florence-2,这是一个新型视觉基础模型,具有统一的,及时的代表,用于量级计算机视觉和视觉语言任务。在转移学习方面表现出色时,他们努力通过简单的说明执行各种任务,这意味着处理各种空间层次结构和语义粒度的复杂性。Florence-2旨在将文本推出作为任务说明,并以文本形式产生理想的结果,无论是限制,对象检测,接地还是分割。这种多任务学习设置需要大规模的高质量注释数据。为此,我们使用自动化图像注释和改进的迭代策略,共同开发了1.26亿张图像的FLD-5B。我们采用了一个序列结构,以训练佛罗伦萨-2,以执行多功能和全面的视觉任务。对众多任务的广泛评估表明,佛罗伦萨-2是具有未曾预性零击和微调功能的强大愿景基础模型竞争者。
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
构建准确的地图是构成可靠的局部设备,计划和导航的关键构建块。我们提出了一种新的方法,可以利用LiDAR扫描来建立动态环境的准确地图。为此,我们建议将4D场景编码为新的时空隐式神经图表示,通过将时间依赖性的截断符号距离函数拟合到每个点。使用我们的代表,我们通过过滤动态零件来提取静态图。我们的神经表示基于稀疏特征网格,一种全球共享的解码器和时间依赖性的BAIS函数,我们以无监督的方式共同优化。要从一系列li-dar扫描中学习此表示,我们设计了一个简单而有效的损耗函数,以分段方式监督地图优化。我们在包含静态图的重建质量和动态点云的分割的各种场景上评估了我们的方法1。实验结果表明,我们的方法是删除输入点云的动态部分的过程,同时重建准确而完整的3D地图,以超出几种最新方法。
文件格式对于数据兼容性和质量至关重要,因为它们决定了数据在文件中的编码、压缩和结构。选择合适的文件格式可确保与不同的软件应用程序、操作系统和设备兼容,让用户无缝共享、分发和访问数字内容。此外,文件格式会影响内容的质量和保真度,影响图像分辨率、音频清晰度和视频播放流畅度等因素。了解常见的数字文件格式及其特性有助于用户在创建、共享和使用数字内容时做出明智的决定。
(3)BVAG对EXA规则6字母的响应 - 关于检查程序和时间表的书面提交(2024年7月),包括建议的地点进行现场检查和/或无人陪伴,并附加了其他太阳能计划的地图和桌子,该地图和桌子列出了附近地区。
除了讨论预先传播的论文(在“论文讨论小组” A和B中)和四个主题演讲外,学校的参与者还将形成(2-3)跨学科小组(“小组工作”),以研究其选择的主题或领域(理想情况下是与参加学校的成年人的使命相关的对象)。他们将被要求考虑三个广泛的问题,同时着重于所选领域的特定转换。这样做,他们将被邀请反思想象的概念的作用,以及对他们不同学科的贡献的作用。
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
摘要。人类活动识别在包括医疗保健和智能家居在内的各个领域都起着至关重要的作用。随着配备环境传感器的智能房屋的越来越多,人们对利用人工智能技术的兴趣越来越兴趣,以理解和认识到这些环境中的人类活动。但是,环境传感器收集的数据的规则和嘈杂性质提出了独特的挑战。为了应对这些挑战,我们建议使用接受传感器激活序列训练的预训练的嵌入式嵌入,通常是基于类似于GPT的架构的算法,以证明在智能家庭中日常生活的分类表现。此外,我们利用从一个环境中获得的知识来增强另一个环境的活动识别,研究转移学习的概念。结果表明,GPT变压器解码器的方法在多个数据集的精度和平衡精度方面优于其他算法。这些发现还突出了转移学习的潜力,从干净且大的数据集中,GPT跨解码器预先训练的嵌入在各种情况下显示出令人鼓舞的结果。