目前,深度学习模型在现实世界的面部识别任务中达到了人类水平。我们回顾了使用基于深度学习的计算方法理解人脸处理的科学进展。这篇综述围绕三个基本进展展开。首先,经过面部识别训练的深度网络会生成一个表示,该表示保留了有关面部(例如身份、人口统计、外观、社交特征、表情)和输入图像(例如视点、照明)的结构化信息。这迫使我们重新思考视觉逆光学问题的可能解决方案。其次,深度学习模型表明,面部的高级视觉表示无法从可解释的特征方面来理解。这对理解高级视觉皮层中的神经调节和群体编码具有重要意义。第三,深度网络中的学习是一个多步骤的过程,迫使人们从理论上考虑各种可以重叠、随时间积累和相互作用的学习类别。需要多种学习类型来模拟人类面部处理技能的发展、跨种族效应以及对个人面孔的熟悉程度。
文本驱动的3D样式转移旨在根据文本对场景进行样式化,并以一致性生成任意的新颖观点。简单地结合图像/视频样式传输方法和新颖的视图合成方法会在变化视点时会闪烁,而现有的3D样式转移方法从图像而不是文本学习样式。为了解决这个问题,我们首次设计了一个有效的文本驱动模型,用于3D样式传输,名为Testnerf,通过跨模式学习使用文本对场景进行风格化:我们利用高级文本编码器嵌入文本以控制3D样式传输并在潜在的图像中对准输入文本并在潜在的图像中对齐。此外,为了获得更好的视觉效果,我们引入了风格的范围,从样式的学习特征统计信息以及利用2D式测试结果来纠正突然的颜色溢出。广泛的实验表明,测试仪明显胜过效果的方法,并提供了一种指导3D样式转移的新方法。
摘要:抖音短视频的火爆引发了全球学术界对短视频的研究。而在中国,短视频平台市场已趋成熟,相关研究成果颇丰,但对短视频研究的整体综述尚缺。采用科学图谱和主题分析的方法,对近二十年来Web of Science核心合集和中国知网(CSSCI和CSCD)中的研究和综述文章进行归纳整理。主要发现如下:1)短视频研究的发展经历了四个主要阶段,每个阶段都与市场发展紧密相关;2)短视频研究出现了四个主要视角(媒体、经济、文化和话语),12个核心问题集群,短视频给普通人带来的可视性是很多研究的基本视点;3)当前,短视频研究不断向广度和深度迈进,吸引了不同学术背景的学者参与,研究方法多种多样; 4)WoS与CNKI的论文在研究问题、研究对象、研究方法等方面存在一定的相似之处,但也存在较大的差异,并指出了本研究的局限性和未来研究的可能性。
摘要 越来越高的分辨率卫星图像引起了人们对自动检测某个区域随时间推移的非常精细的变化的兴趣,这是一种分析人口密集城市地区活动特别有用的工具。然而,由于高架结构的运动视差,尝试以这种分辨率自动检测变化非常困难。本文提出了一种全面的解决方案,使用一种称为体积外观建模 (VAM) 的新框架来检测具有显著 3D 起伏的区域的变化。这种方法可以通过维护一个基于 3D 体素的模型来管理未知和变化的世界表面的复杂性,其中表面占用和图像外观的概率分布存储在每个体素中。这些分布会在使用自适应学习程序接收新图像时不断更新。事实证明,这种表示可以在卫星图像中存在可变照明和视点以及雾霾条件的情况下产生准确的变化检测结果。体积表示还支持自动传感器模型校正,以将传入图像与通用地理参考对齐。事实证明,这种配准方法可以实现与地面采样距离(GSD)相当或更好的地理定位精度。
摘要:抖音短视频的火爆引发了全球学术界对短视频的研究,而国内短视频平台市场已趋成熟,相关研究成果颇丰,但对短视频研究的整体综述尚缺失。采用科学图谱和主题分析的方法,对近二十年来Web of Science核心合集和中国知网(CSSCI和CSCD)中的研究和综述文章进行归纳整理,主要发现如下:1)短视频研究的发展经历了四个主要阶段,每个阶段都与市场发展紧密相关;2)短视频研究出现了四个主要视角(媒体、经济、文化和话语),12个核心问题集群,短视频给普通人带来的可视性是很多研究的基本视点;3)当前,短视频研究不断向广度和深度迈进,吸引了不同学术背景的学者参与,研究方法多种多样; 4)WoS与CNKI的论文在研究问题、研究对象、研究方法等方面存在一定的相似之处,但也存在较大的差异,并指出了本研究的局限性和未来研究的可能性。
先前的行人重新识别 (Re-ID) 模型旨在关注图像中最具辨别力的区域,而当由于相机视点变化或遮挡导致该区域缺失时,其性能可能会受到影响。为了解决这个问题,我们提出了一种名为分层双向特征感知网络 (HBFP-Net) 的新模型来关联多级信息并相互加强。首先,通过低秩双线性池化建模跨级特征对的相关图。然后,基于相关图,采用双向特征感知 (BFP) 模块来丰富高级特征的注意区域,并学习低级特征中的抽象和特定信息。然后,我们提出了一种新颖的端到端分层网络,该网络集成了多级增强特征,并将增强的低级和中级特征输入到后续层以重新训练新的强大网络。更重要的是,我们提出了一种新的可训练广义池化,它可以动态选择特征图中所有位置的任意值进行激活。在包括 Market-1501、CUHK03 和 DukeMTMC-ReID 在内的主流评估数据集上进行的大量实验表明,我们的方法优于最近的 SOTA Re-ID 模型。
抽象对象检测是计算机视觉中广泛研究的任务。当前方法通常专注于从适当的观点捕获的图像。但是,从现实世界中的不同观点观察到的对象之间存在很大的差异。动态对象检测(DOD)方法会自动调整视觉场景中的相机视点,以依次查找最佳观点。当前,DOD任务通常被建模为顺序决策问题,并使用强化学习方法解决。现有方法面临稀疏奖励和训练不稳定的挑战。为了解决这些问题,我们分别提出了一个单步奖励功能和一个轻量级的网络。提供及时反馈的单步奖励功能为DOD任务提供了有效的培训过程。具有很少参数的轻量级网络可以确保训练过程的稳定性。为了评估我们方法的有效性,我们开发了一个基于UE4的仿真数据集,该数据集由1800个培训图像和450张测试图像组成。数据集包括五个对象类别:货车,汽车,拖车,盒子卡车和SUV。实验表明,我们的方法在模拟数据集上的表现优于SOTA对象检测器。具体而言,使用Yolov8对象检测器时,平均精度(AP)从89.1%提高到96.0%。
眼目光跟踪传统上采用了相机来捕捉参与者的眼睛移动并表征其视觉固定。但是,凝视模式识别仍然具有挑战性。这既是凝视点的稀疏性,并且看似随机的方法参与者在没有设定任务的情况下以陌生的刺激来观看陌生的刺激。我们的论文提出了一种通过将固定的二维(x,y)坐标纳入一维希尔伯特曲线距离度量标准的二维(x,y)坐标,将眼睛注视到机器学习中的方法,使其非常适合实现机器学习。我们将这种方法与传统的基于网格的字符串替代技术进行比较,并在支持向量机和卷积神经网络中证明了实施示例。最后,将进行比较,以检查哪种方法的性能更好。结果表明,此方法既可以对大型数据集中的统计显着性进行动态量化扫描路径有用,又可以调查当参与者在免费观看实验中观察到的不熟悉刺激时,在共享自下而上处理中发现的相似性的细微差别。现实世界的应用程序可以包括与专业知识相关的眼光预测,医疗筛查和图像显着性识别。关键字:神经科学,眼动追踪,分形,支持向量机,卷积神经网络。
摘要 - 本文介绍了Clipswap,这是一种专为高保真面部交换而设计的新框架。面部交换的早期方法通常是由于目标和源图像之间属性的不匹配而在身份转移中挣扎。要处理这个问题,我们的工作中提出了一种属性 - 意识到的面部交换方法。我们使用有条件的生成对抗网络和基于剪辑的编码器,该网络提取丰富的语义知识以实现属性 - 意识到的面部交换。我们的框架使用面部交换过程中的剪辑嵌入,通过完善从源图像获得的高级语义属性,将源图像的身份详细信息传输到交换图像中。和源图像用作剪辑的输入参考图像,并确保最终结果中更准确,更详细的身份表示形式。此外,我们采用对比度损失来指导源面部属性从各种视点转换到交换图像上。我们还引入了属性保存损失,这会惩罚网络以保持目标图像的面部属性。多PLE数据集上的彻底定量和定性评估说明了高质量交换结果。我们提出的剪贴画在面部交换中优于先前的最新方法(SOTA)方法,尤其是在身份转移和面部属性特征方面。
摘要 - 由于它们的高时间分辨率,对运动模糊的弹性提高以及非常稀疏的输出,事件摄像头已被证明是低延迟和低频带特征特征跟踪的理想选择,即使在具有挑战性的情况下也是如此。现有的事件摄像机的功能跟踪方法是手工制作的或源自第一原理,但需要广泛的参数调整,对噪声敏感,并且由于未建模的效果而不会概括到不同方案。为了解决这些缺陷,我们介绍了第一个针对事件摄像机的数据驱动的功能跟踪器,该功能摄像机利用低延迟事件来跟踪在强度框架中检测到的功能。我们通过新型的框架注意模块实现了强大的性能,该模块在特征轨道上共享信息。我们的跟踪器旨在以两种不同的配置进行操作:仅与事件或结合事件和帧的混合模式。混合模型提供了两个设置:一个对齐配置,其中事件和框架相机共享相同的视点,以及一个混合立体声配置,其中事件摄像头和标准摄像头并排放置。这种并排布置特别有价值,因为它为每个功能轨道提供了深度信息,从而增强了其在视觉探光和同时定位和映射等应用程序中的效用。