绘画、照片或计算机屏幕所呈现的图像空间与现实世界中体验到的视觉空间之间的一个本质区别在于,观察者在后者中有一个确定的位置,因此拥有关于物体距离和方向的有效信息,而在前者中则没有。因此,自我中心信息在视觉空间中应该更可靠,而他心信息在图像空间中应该更可靠。大多数研究都依赖于图像表征(计算机屏幕上的图像),因此尚不清楚相同的编码机制是否适用于视觉空间。使用虚拟现实中的记忆引导伸手任务,我们研究了视觉空间(虚拟现实中的桌子上)和图像空间(虚拟现实中桌子上的显示器上)中的他心编码。我们的结果表明,大脑使用他心信息来表征图像空间和视觉空间中的物体。与我们的假设相反,在控制了视网膜刺激大小、混杂的异心线索和呈现深度差异后,异心线索在视觉空间中的影响比在图画空间中更大。我们讨论了视觉空间中异心编码比在图画空间中更强的可能原因。
摘要。我们提出了一种新颖的图像到视频生成方法,该方法将转换单个图像和输入条件(例如,将力和扭矩应用于图像中的对象),以产生一种现实,物理上合理的和时间一致的视频。我们的关键见解是将基于模型的物理仿真与数据驱动的视频通用过程集成,从而实现了合理的图像空间动力学。我们系统的核心是三个核心组成部分:(i)有效捕获图像的几何形状,材料和物理参数的图像理解模块; (ii)使用刚体物理和推断参数来模拟实体行为的图像空间动力学模拟模型; (iii)基于图像的渲染和完善模块,利用生成视频扩散来产生具有模拟运动的逼真的视频镜头。由此产生的视频在物理和外观上都是实现的,甚至是可控制的,从而通过定量比较和全面的用户研究来表现出优于现有数据驱动的图像到视频的效果。Physgen的结果视频可用于各种下游
摘要 — 神经科学研究表明,大脑对视觉内容进行编码并将信息嵌入神经活动中。最近,深度学习技术通过使用生成对抗网络 (GAN) 将大脑活动映射到图像刺激,促进了解决视觉重建问题的尝试。然而,这些研究都没有考虑图像空间中潜在代码的语义含义。忽略语义信息可能会限制性能。在本研究中,我们提出了一个新框架,用于从功能性磁共振成像 (fMRI) 数据重建面部图像。在该框架下,首先应用 GAN 逆向来训练图像编码器以提取图像空间中的潜在代码,然后使用线性变换将其桥接到 fMRI 数据。使用属性分类器从 fMRI 数据中识别出属性后,决定操纵属性的方向,然后属性操纵器调整潜在代码以提高所见图像和重建图像之间的一致性。我们的实验结果表明,所提出的框架实现了两个目标:(1)从 fMRI 数据重建清晰的面部图像;(2)保持语义特征的一致性。索引术语 —fMRI、面部图像重建、GAN 反转、属性操纵
扩散模型(DMS)已经实现了最新的(SOTA),从而导致LIDAR点云生成任务,从而受益于他们在抽样过程中稳定的训练和迭代精炼。但是,DMS由于其固有的降解过程而经常无法实际对LiDAR Raydrop噪声进行建模。为了保留迭代采样的强度,同时增强了射线噪声的产生,我们引入了Lidargrit,这是一种生成模型,该模型使用自动回应变压器在潜在空间而不是图像空间中迭代采样范围图像。此外,lidargrit还利用VQ-VAE分别解码范围和射线罩。我们的结果表明,与Kitti-360和Kitti Odometry数据集中的SOTA模型相比,Lidargrit的性能表现出色。代码可用:https://github.com/hamedhaghighi/lidargrit。
使用扩散模型进行图像修复通常使用预条件模型(即针对绘画任务进行微调的图像条件模型)或后条件模型(即在推理时重新用于绘画任务的非条件模型)。预条件模型在推理时很快,但训练成本极高。后条件模型不需要任何训练,但在推理过程中很慢,需要多次前向和后向传递才能收敛到理想的解决方案。在这里,我们推导出一种不需要昂贵训练但推理速度很快的方法。为了解决昂贵的推理计算时间,我们在潜在空间而不是图像空间上执行前向-后向融合步骤。这是通过扩散过程中新提出的传播模块解决的。在多个领域进行的实验表明,我们的方法达到或改善了状态
摘要:图像生成扩散模型已经过微调,以解锁新功能,例如图像编辑和新型视图合成。我们可以类似地解锁视力控制的图像生成模型吗?我们提出了G Enima,这是一种行为粘合剂,将稳定扩散到“绘制关节运动”作为RGB图像的目标。这些图像被馈入一个控制器,将视觉目标映射到一系列关节位。我们在25个rlbench和9个现实的操纵任务上研究G尼马。我们发现,通过将动作提升到图像空间中,Internet预训练的扩散模型可以生成优于状态的视觉运动方法的策略,尤其是在对场景扰动的鲁棒性和对新颖对象的推广方面。尽管缺乏深度,关键点或运动规划剂等先验,我们的方法也与3D代理具有竞争力。
在过去的几十年里,制图领域经历了从传统图形制图到数字计算机制图的逐渐转变。数字摄影测量正在迅速发展,而模拟航空照片的使用没有预见到变化。使用模拟航空照片的主要缺点是扫描过程中普遍存在的精度损失。只有专门为摄影测量应用设计的图像扫描仪才能保证所需的精度。此外,航空摄影成本低廉,但转换为数字格式和正射校正的两步过程可能耗时且昂贵。尽管新的高分辨率图像空间传感器的启动成本经常被认为是太空制图的缺点,但数字摄影测量的优势超过了初始投入。一旦全链流程得以实施和自动化,从太空数字图像制作地图将变得更具成本效益、更省时,并为各种地图应用提供更广泛的数据。
塔架使用电线连接,考虑到电线张力和与地面或附近物体的间隙。电线安装在通行权上,通行权是电力公司用来维护输电线路设施的一条土地。必须管理输电线路周围的树木和植物,以确保这些线路安全可靠地运行。本研究提出使用低成本无人机摄影测量法进行输电线路通行权测绘。进行航空摄影测量以在输电线路周围生成密集点云,并据此创建 DSM(数字表面模型)和 DTM(数字地形模型)。使用 nDSM(归一化数字表面模型)分离线路和附近物体,并在多图像空间中抑制噪声以进行地理空间分析。使用无人机图像对山区两段输电线路进行实验的结果表明,所提出的方法成功生成了附近有危险物体的通行权地图。
包括安全性[63],生物识别技术[38]和刑事侵犯[45],在许多情况下表现优于人类[12,48,61]。尽管这种技术的积极方面,但FR系统严重威胁了数字世界中的个人安全和隐私,因为它们有可能使大规模监视能力[1,67]。进行审查,政府和私人实体可以使用FR系统来通过刮擦Twitter,LinkedIn和Facebook等社交媒体资料的面部来跟踪用户关系和活动[18,20]。这些实体通常使用特定的FR系统,其规格是公众未知的(黑匣子模型)。因此,迫切需要采取一种有效的方法来保护面部隐私免受这种未知的FR系统的影响。理想的面部隐私保护算法必须在自然和隐私范围之间取得正确的平衡[70,77]。在这种情况下,“自然性”被定义为没有人类观察者很容易掌握的任何噪声伪影和人类认识的身份。“隐私保护”是指受保护图像必须能够欺骗黑盒恶意FR系统的事实。换句话说,被指定的图像必须与给定的面部图像非常相似,并且对于人类观察者而言是无伪影的,而同时欺骗了一个未知的自动化FR系统。由于产生自然主义面孔的失败会严重影响在社交媒体平台上的用户体验,因此它是采用隐私增强算法的必要预先条件。1)[22,25,39,72]。最近的作品利用对抗性攻击[57]通过覆盖原始面部图像[6,53,74]上的噪声约束(有限的)广泛扰动来掩盖用户身份。由于通常在图像空间中优化了对抗示例,因此通常很难同时实现自然性和隐私[70]。与基于噪声的方法不同,不受限制的对抗示例并未因图像空间中扰动的大小而影响,并且在对敌方有效的同时,对人类观察者来说表现出更好的感知现实主义[3,55,68,76]。已经做出了几项努力,以生成误导FR系统的不受限制的对抗示例(请参阅Tab。在其中,基于对抗化妆的方法[22,72]随着
输电塔是将电力从电厂输送到变电站的设施。塔使用电线连接,考虑到电线张力和与地面或附近物体的间隙。电线安装在通行权上,通行权是电力公司用来维护输电线路设施的一条土地。必须管理输电线路周围的树木和植物,以确保这些线路安全可靠地运行。本研究提出使用低成本无人机摄影测量法进行输电线路通行权测绘。进行航空摄影测量以在输电线路周围生成密集点云,并据此创建 DSM(数字表面模型)和 DTM(数字地形模型)。使用 nDSM(归一化数字表面模型)分离线路和附近物体,并在多图像空间中抑制噪声以进行地理空间分析。对山区两段输电线路无人机图像的实验结果表明,所提出的方法成功生成了附近有危险物体的通行权地图。