近年来,已经提出了连续的潜在空间(CLS)和DISCRETE潜在空间(DLS)深度学习模型,以改善医学图像分析。但是,这些模型遇到了不同的挑战。cls模型捕获了复杂的细节,但由于其强调低级特征,因此在结构表示和易男性方面通常缺乏解释性。尤其是,DLS模型提供了可解释性,鲁棒性以及由于其结构性潜在空间而捕获粗粒度信息的能力。但是,DLS模型在捕获细粒细节方面的功效有限。为了确定DLS和CLS模型的局限性,我们采用了Synergynet,这是一种新型的瓶颈体系结构,旨在增强现有的编码器 - 核编码器分割框架。Synergynet无缝地将离散和连续的表示形式整合到利用互补信息中,并成功保留了细学的表示的细节。我们对多器官分割和CAR-DIAC数据集进行的实验实验表明,SynergyNet的表现优于包括Transunet:Transunet:DICE评分提高2.16%的其他最新方法,而Hausdorff分别分别提高了11.13%。在评估皮肤病变和脑肿瘤分割数据集时,我们观察到皮肤病变分割的交互分数的1.71%的重新提高,脑肿瘤分割的增长率为8.58%。我们的创新方法为增强医学图像分析关键领域中深度学习模型的整体性能和能力铺平了道路。
机器人及时通过传感器数据构建持久,准确且可操作的模型的能力是自主操作的范围。在将世界表示为点云可能足以进行本地化时,避免障碍物需要更密集的场景表示形式。另一方面,更高级别的语义信息通常对于分解必要的步骤来完成一项复杂的任务,例如烹饪,自主是至关重要的。因此,迫在眉睫的问题是,手头机器人任务的合适场景表示是什么?这项调查提供了对关键方法和框架的全面回顾,这在机器人空间感知领域推动了进步,并特别关注了代表的历史演变和当前的趋势。通过将场景建模技术分类为三种主要类型(公式,公式和指标 - 语言流行),我们讨论了空间启示框架正在从构建世界的纯几何模型转变为更高级的数据结构的方式,这些模型包括更高级别的概念,例如对象实例和位置的概念。特别重点是实时同时定位和映射(SLAM)的方法,它们与深度学习的集成,以增强了鲁棒性和场景的理解,以及它们处理场景动态性的能力,作为当今驾驶Robotics研究的一些最热门的主题。我们在讨论方面的挑战和未来的研究方向的讨论中进行了结论,以建立适合长期自治的强大而可扩展的空间感知系统。
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
Vision语言导航(VLN)要求代理在基于视觉观察和自然语言说明的3D环境中导航。很明显,成功导航的关键因素在于全面的场景理解。以前的VLN代理使用单眼框架直接提取透视视图的2D特征。虽然很简单,但他们为捕获3D几何和语义而努力,导致部分不完整的环境代表。为了实现具有细粒细节的全面3D表示,我们引入了体积环境(VER),将物理世界脱氧于结构化的3D细胞中。对于每个单元格,通过2D-3D采样将多视图2D特征归纳到如此统一的3D空间中。通过对VER的粗略到纤维特征进行推断和多任务学习,我们的代理人可以共同预测3D占用率,3D房间布局和3D边界框。基于在线收集的vers,我们的代理构成了体积状态估计,并构建情节内存以预测下一步。实验结果表明,我们从多任务学习的环境表示导致了VLN的可观绩效提高。我们的模型在VLN基准(R2R,Reverie和R4R)之间实现了最新的性能。
构建准确的地图是构成可靠的局部设备,计划和导航的关键构建块。我们提出了一种新的方法,可以利用LiDAR扫描来建立动态环境的准确地图。为此,我们建议将4D场景编码为新的时空隐式神经图表示,通过将时间依赖性的截断符号距离函数拟合到每个点。使用我们的代表,我们通过过滤动态零件来提取静态图。我们的神经表示基于稀疏特征网格,一种全球共享的解码器和时间依赖性的BAIS函数,我们以无监督的方式共同优化。要从一系列li-dar扫描中学习此表示,我们设计了一个简单而有效的损耗函数,以分段方式监督地图优化。我们在包含静态图的重建质量和动态点云的分割的各种场景上评估了我们的方法1。实验结果表明,我们的方法是删除输入点云的动态部分的过程,同时重建准确而完整的3D地图,以超出几种最新方法。
解码人脑一直是神经科学家和人工智能研究人员的标志。重新构建来自脑电脑脑电图(EEG)信号的视觉图像,由于其在脑部计算机接口中的应用,引起了人们的极大兴趣。本研究提出了一种两阶段的方法,其中第一步是获得脑电图衍生的特征,以稳健地学习深度代表,然后将学习的表示形式用于图像产生和分类。我们使用具有监督和对比度学习方法的深度学习体系结构在三个不同的数据集中进行了特征提取管道的普遍性。我们已经执行了零摄影的脑电图分类任务,以进一步支持概括性索赔。我们观察到,与脑电图和图像之间的联合代表学习相比,在单峰设置中仅使用脑电图数据来学习一个单独使用脑电图数据的近距离线性分离的视觉表示。最后,我们提出了一个新颖的框架,将看不见的图像转换为脑电图空间,并以近似值重建它们,从而展示了来自EEG信号的图像重建潜力。我们提出的来自EEG的图像合成方法显示了62。9%和36。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。
从网络数据中学习可概括的视觉表示已为机器人技术带来了令人鼓舞的结果。然而,预循环方法着眼于预训练2D表示,是应对闭塞的优势,并在复杂的3D场景中准确地将对象定位。同时,3D代表学习仅限于单对象。为了解决这些局限性,我们引入了一个名为Sugar的机器人技术的新型3D预训练框架,该框架通过3D点云捕获对象的语义,几何和负担性能。我们强调了3D表示学习中混乱场景的重要性,并自动构建一个受益于模拟中无需成本监督的多对象数据集。Sugar采用一种多功能变压器的模型来共同解决五个预训练任务,即用于语义学习的跨模式知识蒸馏,以掩盖点建模,以取消几何结构,掌握姿势合成以进行对象负担,3D实例分割和引用表达地面以分析杂乱无章的场景。我们对三个与机器人相关的任务进行了学习的代表,即零射击3D对象识别,引用凸起的接地和语言驱动的机器人操作。实验结果表明,糖的3D表示优于最先进的2D和3D表示。
本文介绍了在人机协作背景下代表,推理和交互式学习领域知识的综合体系结构。答案集Prolog是一种非单调逻辑推理范式,用于用不完整的comsense域知识来表示和理由,为任何给定目标计算计划并诊断出意外的观察。基于ASP的推理还用于指导以前未知的动作的互动学习以及编码负担能力,动作前提和效果的公理。此学习将主动探索,反应性动作执行和人类(口头)描述的输入观察以及学习的动作和公理用于后续推理。在模拟机器人上评估了架构,该机器人协助人类在室内域中。
我们介绍了Florence-2,这是一个新型视觉基础模型,具有统一的,及时的代表,用于量级计算机视觉和视觉语言任务。在转移学习方面表现出色时,他们努力通过简单的说明执行各种任务,这意味着处理各种空间层次结构和语义粒度的复杂性。Florence-2旨在将文本推出作为任务说明,并以文本形式产生理想的结果,无论是限制,对象检测,接地还是分割。这种多任务学习设置需要大规模的高质量注释数据。为此,我们使用自动化图像注释和改进的迭代策略,共同开发了1.26亿张图像的FLD-5B。我们采用了一个序列结构,以训练佛罗伦萨-2,以执行多功能和全面的视觉任务。对众多任务的广泛评估表明,佛罗伦萨-2是具有未曾预性零击和微调功能的强大愿景基础模型竞争者。
量子计算已成为一个新兴领域,可能彻底改变信息处理和计算能力的格局,尽管物理上构建量子硬件已被证明是困难的,而且当前嘈杂中型量子 (NISQ) 时代的量子计算机容易出错且其包含的量子比特数量有限。量子机器学习是量子算法研究中的一个子领域,它对 NISQ 时代具有潜力,近年来其活动日益增多,研究人员将传统机器学习的方法应用于量子计算算法,并探索两者之间的相互作用。这篇硕士论文研究了量子计算机的特征选择和自动编码算法。我们对现有技术的回顾使我们专注于解决三个子问题:A) 量子退火器上的嵌入式特征选择,B) 短深度量子自动编码器电路,以及 C) 量子分类器电路的嵌入式压缩特征表示。对于问题 A,我们通过将岭回归转换为量子退火器固有的二次无约束二元优化 (QUBO) 问题形式并在模拟后端对其进行求解来演示一个工作示例。对于问题 B,我们开发了一种新型量子卷积自动编码器架构,并成功运行模拟实验来研究其性能。对于问题 C,我们根据现有技术的理论考虑选择了一种分类器量子电路设计,并与相同分类任务的经典基准方法并行进行实验研究,然后展示一种将压缩特征表示嵌入到该量子电路中的方法。