在班级学习(CIL)方案中,由于阶级的偏见对当前任务的偏见引起的灾难性遗忘者长期以来一直引起了重大挑战。它主要由判别模型的特征引起。随着生成性多模式模型的日益普及,我们将探索用CIL生成的歧视模型代替歧视模型。,从歧视到生成模式过渡需要解决两个关键挑战。主要挑战在于将生成的文本信息转移到不同类别的分类中。在方面,它需要在生成框架内制定CIL的任务。为此,我们提出了一种新颖的生成性多模式模型(GMM)框架,用于类增量学习。我们的方法直接使用改编的生成模型为图像生成Labels。获得详细的文本后,我们使用文本编码器来阐述文本特征,并采用匹配的功能来确定最相似的标签与分类的标签。在传统的CIL设置中,我们在长期序列的任务方案中取得了更好的影响。under少数CIL设置,与所有当前最新方法相比,我们的精度至少提高了14%,而遗忘的遗忘明显较小。我们的代码可在https://github.com/doubleclass/gmm上找到。
精确的地理空间植被预测具有各个部门的潜力,包括农业,林业,植物援助和碳会计。为了利用卫星图像的广泛可用性来完成此任务,各种作品应用了深层神经网络,以预测具有逼真质量的多光谱图像。但是,尚未彻底探索植被动力学的重要领域。我们的研究介绍了Greenearthnet,这是第一个专门为高分辨率植被预测设计的数据集,以及ContextFormer,这是一种新颖的深度学习方法,可预测Sentinel 2卫星2卫星图像,并在整个Eu-Rope之间进行精细分辨率。我们的多模式变压器模型上下文形式通过视觉主链利用空间上下文,并以参数有效的方式预测局部上下文贴片上包含气象时间序列的时间动态。Greenearthnet数据集具有学习的云蒙版和适当的植被建模评估方案。它还与现有的卫星图像预测数据集SEARNET2021保持兼容性,从而实现了跨数据库模型比较。我们广泛的定性和定量分析表明,我们的方法的表现优于广泛的基线技术。这包括超越了SEARNET2021上的先前最先进的模型,以及时间序列预测和视频预测的改编模型。我们提供开源代码和预训练的权重,以根据https:// gith ub.com/vitusbenson/greenearthnet [10]重新产生我们的实验结果。据我们所知,这项工作为大陆规模植被建模的第一个模拟介绍了良好的分辨,能够在季节性周期以外捕获异常,从而为对气候变化和极端的响应铺平了预测植被健康和行为的道路。
在这项工作中,我们证明,由于现有评估协议和数据集中的不足,因此有必要重新审视并全面研究Mul-timodal零射击学习(MZSL)问题问题。具体来说,我们解决了MZSL方法面临的两个主要挑战。 (1)既定基线的情况通常是无与伦比的,而且有时甚至是有缺陷的,因为现有的评估数据集通常与培训数据集有一些重叠,因此违反了零照片范式; (2)大多数现有的方法都偏向可见的类,这在对可见和看不见的类别进行评估时会大大降低性能。为了应对这些挑战,我们首先引入了一个新的多模式数据集,用于零照片评估,称为MZSL-50,其中有4462个视频来自50个广泛多元化的类别,并且与培训数据没有重叠。此外,我们提出了一种新型的多模式零射击变压器(MZST)体系结构,该体系结构利用了吸引瓶颈进行多模式融合。我们的模型可以直接预测语义表示,并且在将偏见降低到可见的类别方面表现出色。我们进行了广泛的消融研究,并在三个基准数据集和我们的新型MZSL-50数据集上实现最先进的结果。具体来说,我们提高了传统的MZSL绩效2。1%,9。81%和8。 vgg-sound,UCF-101和ActivityNet的68%。 最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。 181%和8。vgg-sound,UCF-101和ActivityNet的68%。最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。1
海洋生物膜是全球无处不在的表面相关微生物群落,由于其独特的结构和功能,引起了人们的关注。The aim of this study is to provide a comprehensive overview of the current scienti fi c understanding, with a speci fi c focus on naturally occurring bio fi lms that develop on diverse marine abiotic surfaces, including microplastics, sea fl oor sediments, subsurface particles, and submerged arti fi cial structures susceptible to biocorrosion and biofouling induced by marine bio fi LMS。本文介绍了有关海洋环境中这些表面相关微生物群落的多样性,结构,功能和动态的最新进展和发现,突出了它们的生态和生物地球化学维度,同时也是为了进一步研究海洋生物生物LMS的灵感。
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
1 “Enrico Piaggio”研究中心和 Dipartimento di Ingegneria dell'Informazione,比萨拉戈大学 Lucio Lazzarino 1, 56122 比萨,意大利; 2 用于人类合作与康复的软机器人,Fondazione Istituto Italiano di Tecnologia,Via Morego 30, 16163 Genova,意大利; 3 RSI - 慕尼黑工业大学 (TUM) 慕尼黑机器人与机器智能学院机器人与系统智能主席,Heßstr。 134, 80797 慕尼黑, 德国; 4 MoMiLab 研究中心,IMT 卢卡高级研究学院,Piazza S. Francesco 19, 55100 Lucca, Italy; 5 苏黎世大学神经病学系血管神经病学和神经康复科,Frauenklinikstrasse 26, 8006 苏黎世,瑞士;6 汉诺威医学院矫形外科系生物力学和生物材料实验室 (LBB),L384, 30625 汉诺威,德国;7 苏黎世健康科学与技术系机器人与智能系统研究所康复工程实验室,CLA H 1.1 Tannenstrasse 3, 8092 苏黎世,瑞士
摘要。通过互补感应方式整合各种表示形式对于自主驾驶中的强大场景解释至关重要。近年来,融合视觉和范围数据的深度学习体系结构具有先进的2D和3D对象检测。但是,这些方式在不利的天气或照明条件下通常会降解,从而导致性能下降。虽然已经开发了域适应性甲基元素来弥合源域和目标域之间的缝隙,但由于源和目标域之间的固有差异,它们通常会缺乏。此差异可以在数据的不同分布和不同特征空间的不同分布中表现出来。本文介绍了一个全面的域自适应对象检测框架。通过深度转移学习开发,该框架旨在从标记的透明天气数据中稳健地概括到无标记的不良天气条件,从而增强了基于深度学习的对象检测模型的性能。创新的斑块熵融合模块(PEFM)是我们方法的核心,该方法动态整合了sens-sor数据,强调关键信息并最大程度地减少了背景干扰。这进一步补充了一种新型的加权决策模块(WDM),该模块(WDM)根据其在特定环境条件下的功效来调整不同传感器的贡献,从而优化了检测准确性。此外,我们在转移学习过程中集成了域对齐损失,以确保有效的域适应性通过将特征图差异定于清晰和不利天气数据集之间的差异。我们评估了不同数据集的模型,包括Exdark(单峰),CityScapes(单峰)和密集(Mul-timodal),在我们评估的时间点,它在所有数据集中排在所有数据集中。
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
抽象虚拟现实(VR)是一项允许用户体验模拟真实或虚构场景的多感觉和交互式环境的技术。仍然辩论了不同的VR沉浸式技术神学对心理工作量(MWL)的影响,即执行任务所需的资源数量;但是,从未利用脑电图在这种情况下的潜在作用。本文旨在调查在VR环境中对MWL进行认知任务的影响,这是通过使用多模式的方法进行的,其特征在于以不同程度的沉浸式来进行,这些方法通过生理EEG测量对MWL进行了良好评估的主观评估。提出了基于N-BACK测试的认知任务,以比较使用头部安装显示器(HMD)或桌面计算机展示Stim uli的特定裤子的性能和MWL。任务具有四个不同的复杂度(N¼1或2具有视觉或视觉和听觉刺激)。二十七名健康参与者都参加了这项研究,并在两种情况下都执行了任务。EEG数据和NASA任务负荷指数(NASA-TLX)分别用于评估客观和主观MWL的变化。 错误率(ER)和反应时间(RTS)也针对每个条件和任务水平进行了COL。 任务水平在两种情况下都对MWL产生了重大影响,增加了次级措施和降低性能。 EEG MWL指数显示出显着增加,特别是与休息相比。 不同程度的沉浸式均未显示个人的表现和MWL的显着差异,如主观评分所估计。EEG数据和NASA任务负荷指数(NASA-TLX)分别用于评估客观和主观MWL的变化。错误率(ER)和反应时间(RTS)也针对每个条件和任务水平进行了COL。任务水平在两种情况下都对MWL产生了重大影响,增加了次级措施和降低性能。EEG MWL指数显示出显着增加,特别是与休息相比。 不同程度的沉浸式均未显示个人的表现和MWL的显着差异,如主观评分所估计。EEG MWL指数显示出显着增加,特别是与休息相比。不同程度的沉浸式均未显示个人的表现和MWL的显着差异,如主观评分所估计。但是,在大多数情况下,HMD降低了EEG衍生的MWL,表明较低的认知负载。总而言之,HMD可能会减少某些任务的认知负荷。如脑电图MWL指数所示,MWL的降低水平可能对基于VR的应用程序的设计和未来评估有影响。