从单个视图中恢复3D场景几何形状是计算机视觉中的基本问题。虽然经典的深度估计方法仅推断出2.5D场景表示为图像平面,但最新的基于辐射范围的aperach是重建完整的3D代表。然而,这些方法仍然在被占地的区域困难,因为没有视觉观察的几何形状需要(i)周围的语义知识,以及(ii)关于空间上下文的推理。我们提出了Kyn,这是一种单视场景重建的新方法,其原因是语义和空间上下文来预测每个点的密度。我们引入了一个视觉模块模块,以使用细粒度的语义信息丰富点特征。我们通过语言引导的空间注意机制在整个场景中汇总了点表示,以产生意识到3D语义环境的每点密度预测。我们表明,与预测每个3D点的密度相比,Kyn改善了3D形状的恢复。我们在Kitti-360上实现了最新的场景和对象重建结果,并且与先前的工作相比,零弹性概括的改进。项目页面:https://ruili3.github.io/kyn。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
●4801计算机科学I●4838机械制图和设计II●5236计算机科学II●5249计算机科学III:软件开发帽岩石●5250计算机科学III:数据库●5251计算机科学III:信息学III:信息学:信息学●5253 Computer Science III:Cybersecurity II:Cybersecurity II:Cybersecurity II●56 ARTACTECTART●5652 ARTACTECTER●5652 ARTACTECTERCTINTER●5652 ARTACTECTERT●5652 ARTACTECTERCTINTER●5652 ARTACTECTITIC电子和计算机技术II●7197 BIM体系结构●7200电力和电动机的基础●7202制造原理和设计●7223机械设计Capstone●7351计算机科学中的主题●7352 7361计算机科学●7361电子基础●7362电子基础●7362电子技术●7362电子capstone
在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。
学期学时20学期 - VI课程代码课程类型学会时间HQ-006古兰经强制性的翻译1 Chem-319物理化学I-I(化学动力学)强制性2 Chem-320物理化学化学(体温动力学)强制性2化学-321物理化学实验室强制性化学1 Chemistory 1 Chemistor 1 Chemistor 1 Chemistor 1 Comportor 2 Comprions 2 Comportion 1 Chemistor 1 Comportor 2 Comistry 1 Comportor 2 Cosistry 2 Comistry 1 Chemistry 1 Comportion 2 Comistor 2 Chem-323 Inorganic Chemistry-II (f-block elements) Compulsory 2 Chem-324 Inorganic Chemistry Lab Compulsory 1 Chem-325 Organic Chemistry-I (Reaction Mechanisms-I) Compulsory 2 Chem-326 Organic Chemistry-II (Spectroscopy) Compulsory 2 Chem-327 Organic Chemistry Lab Compulsory 1
高质量的高分辨率(HR)磁共振(MR)图像提供了更详细的信息,可用于可靠的诊断和定量图像分析。深度综合神经网络(CNN)显示出低分辨率(LR)MR图像的MR图像超分辨率(SR)的有希望的Abil。LR MR图像通常具有一些vi-Sual特征:重复模式,相对简单的结构和信息较少的背景。大多数以前的基于CNN的SR方法同样处理空间像素(包括背景)。他们也无法感知输入的整个空间,这对于高质量的MR IMPIMSR至关重要。为了解决这些问题,我们提出了挤压和激发推理注意网络(SERAN),以获得MR Image SR。我们建议从输入的全球空间信息中挤出注意力,并获得全球描述符。这样的全球描述符增强了网络专注于MR图像中更具信息区域和结构的能力。我们在这些全球描述符之间进一步建立了关系,并提出了引起关注的原始关系。全球描述符将以学习的关注进一步确定。为了充分利用汇总信息,我们通过学习的自适应注意向量自适应地重新校准了特征响应。这些注意向量选择一个全局描述符的子集,以补充每个空间位置以进行准确的细节和纹理重新分解。我们通过残留的缩放提出挤压和激发注意力,这不仅可以稳定训练,而且还使其对其他基本网络的灵感变得非常灵活。广泛的例证显示了我们提出的Seran的有效性,该塞伦在定量和视觉上清楚地超过了基准标记的最新方法。
摘要:我们表明,通过扩展主动推理框架,可以在目的论框架中制定目标导向的行动规划和生成。所提出的模型建立在变分递归神经网络模型上,具有三个基本特征。这些特征是:(1)可以为静态感官状态(例如要达到的目标图像)和动态过程(例如围绕物体移动)指定目标;(2)该模型不仅可以生成目标导向的行动计划,还可以通过感官观察来理解目标;(3)该模型根据从过去的感官观察推断出的当前状态的最佳估计,为给定目标生成未来的行动计划。通过在模拟移动代理以及执行对象操作的真实人形机器人上进行实验来评估所提出的模型。
摘要。在自然环境中具有综合性运作的情境意识到的人工药物面临着几个挑战:空间意识,对象效果检测,动态变化和不可预测性。一个关键的挑战是代理商识别和监视与其目标有关的环境要素的能力。我们的研究介绍了一种用于反应性机器人技术的神经符号模块化体系结构。我们的系统结合了在环境和图像处理技术(如光流)上执行对象识别的神经组件,以及符号表示和推理。通过将图像示意性知识整合在本体论结构中,推理系统基于体现认知范式的基础。该本体可用于创建有关感知系统的查询,决定符合的问题,并推断从感知数据中得出的实体功能。推理和图像处理的组合允许代理对正常操作的看法,并发现针对特定相互作用中涉及的对象的一部分的新概念。发现的概念允许机器人自主获取培训数据并只是其符号的感知来识别零件,并通过将搜索重点放在这些相关对象的零件上,从而为更复杂的任务进行计划。我们在模拟世界中演示了我们的方法,在模拟世界中,代理商学会了识别涉及支持关系的对象的一部分。虽然代理商最初没有概念,但通过观察从钩子上悬挂的支持对象的示例,但它学会了认识到建立支持所涉及的部分并能够计划支持关系的建立/破坏。这可以通过系统的方式通过观察来扩展其知识的能力,并说明了将深层推理与动态设置中的反应性机器人技术相结合的潜力。
