神经科学对脑网络进行了广泛的研究,以便更好地理解人类行为以及识别和描述神经和精神疾病条件下的分布式脑异常。已经提出了几种用于脑网络分析的深度图学习模型,但大多数当前模型缺乏可解释性,这使得很难从结果中获得任何启发性的生物学见解。在本文中,我们提出了一种新的可解释图学习模型,称为分层脑嵌入(HBE),以根据网络社区结构提取脑网络表示,从而产生可解释的分层模式。我们应用我们的新方法从使用 ICA 从人类连接组计划扫描的 1,000 名年轻健康受试者获得的功能性脑网络中预测攻击性、违反规则和其他标准化行为分数。我们的结果表明,所提出的 HBE 在预测行为指标方面优于几种最先进的图学习方法,并且展示出与临床症状相关的类似分层脑网络模式。
摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
预测行人的穿越意图是在现实世界中安全驾驶自动驾驶汽车(AV)的重要任务。行人的行为通常会受到交通场景中周围环境的影响。基于基于视觉的神经网络的最新作品从图像中提取关键信息以执行预测。但是,在驾驶环境中,存在许多关键信息,例如驱动区域中的社交和场景互动,自我汽车和目标行人之间的位置和距离以及所有目标的运动。如何正确探索和利用上述隐式相互作用将促进自动驾驶汽车的发展。在本章中,两个新颖的属性,行人在道路或人行道上的位置,以及从目标行人到自我卡车的相对距离,这些距离源自语义图和深度图与边界框的相对距离。提出了基于多模式的混合预测网络,以捕获所有特征与预测行人交叉意图之间的相互作用。通过两个公共行人穿越数据集评估PIE和JAAD,拟议的混合框架的表现优于最先进的精度3%。关键字:行人交叉,特征融合
摘要 - 在许多机器人应用中重建三维(3D)场景至关重要。机器人需要识别哪些对象及其位置和形状,以通过给定的任务精确地操纵它们。移动机器人,尤其是通常使用轻质网络在RGB图像上细分对象,然后通过深度图进行定位;但是,他们经常会遇到掩盖物体过度掩盖的分布场景。在本文中,我们通过使用非参数统计方法来完善分割错误来解决3D场景重建中的跨分割质量的问题。为了提高掩模的精度,我们将预测的遮罩映射到深度框架中,以通过内核密度估算它们的分布。然后,对异常值进行深度感知的拒绝,而无需以自适应方式进行额外的pa-rameters,以使其分布外情景,然后使用投影签名的距离函数(SDFS)进行3D重建。我们在合成数据集上验证了我们的方法,该方法显示了全景映射的定量和定性结果的改进。通过现实世界测试,结果还显示了我们方法在实体机器人系统上部署的能力。我们的源代码可在以下网址提供:https://github.com/mkhangg/refined Panoptic映射。
在肖像视频生成领域中,使用单个图像来生成肖像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器的控制生成。但是,控制信号(例如,文本,音频,参考图像,姿势,深度图等)的力量可能会有所不同。在这些情况下,由于对较强的条件的干扰,较弱的条件通常难以有效,这在平衡这些条件方面构成了挑战。在我们在肖像视频生成方面的工作中,我们确定音频信号特别弱,通常被诸如面部姿势和参考图像之类的强信号所掩盖。但是,信号较弱的直接训练通常会导致收敛困难。为了解决这个问题,我们提出了V-Express,这是一种简单的方法,可以通过渐进式训练和条件辍学操作来平衡不同的控制信号。我们的方法逐渐通过弱条件实现有效的控制,从而获得了同时考虑面部姿势,参考图像和音频的发电能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,还提供了一种潜在的解决方案,以同时有效地利用各种强度的条件。
摘要 — 近年来,多模态情绪识别引起了学术界和工业界越来越多的关注,因为它能够使用各种模态(如面部表情图像、语音和生理信号)进行情绪检测。尽管该领域的研究发展迅速,但由于难以捕捉自然和细微的面部表情信号(如眼肌电图 (OMG) 信号),创建包含面部电信息的多模态数据库仍然具有挑战性。为此,我们在本文中介绍了一个新开发的多模态真实情绪和表情检测 (MGEED) 数据库,这是第一个包含面部 OMG 信号的公开数据库。MGEED 包含 17 个受试者,拥有超过 150K 张面部图像、140K 张深度图和不同模态的生理信号,包括 OMG、脑电图 (EEG) 和心电图 (ECG) 信号。参与者的情绪由视频刺激引起,数据由多模态传感系统收集。利用收集的数据,开发了一种基于多模态信号同步、特征提取、融合和情绪预测的情绪识别方法。结果表明,通过融合视觉、EEG 和 OMG 特征可以获得优异的性能。数据库可从 https://github.com/YMPort/MGEED 获取。
迈克尔·温曼(Michael Weinmann)在Karlsruhe技术学院(2003-2009)学习了电气工程和信息技术,并于2016年获得了波恩大学的计算机科学博士学位。然后,他继续担任博士后研究员和讲师,重点关注波恩大学视觉计算系(直到2021年)的计算机视觉和图形,以及X-Rite研究生院的项目协调员在数字材料外观上。2021年,他加入代尔夫特技术大学,担任智能系统系的助理教授。在计算机视觉,计算机图形和机器学习的交汇处工作,他的研究目标是从不同传感器(即RGB或RGB或RGB信息,深度图,多光谱测量等)中获得的图像或视频数据的了解。),重点是对3D场景的准确,有效的捕获以及它们的解释和可视化。因此,特别的重点是基于利用专用的先验(例如结构性或程序性规则,神经先验或物理学知识的机器学习)来开发可靠的解决方案。各自的研究结果用于跨学科的应用程序场景,包括机器人技术,直播场景中的远程敏感/远程操作,医疗应用以及文化遗产,虚拟原型,土木工程,建筑,建筑和艺术的应用。
摘要 - 在许多机器人应用中重建三维(3D)场景至关重要。机器人需要识别哪些对象及其位置和形状,以通过给定的任务精确地操纵它们。移动机器人,尤其是通常使用轻质网络在RGB图像上细分对象,然后通过深度图进行定位;但是,他们经常会遇到掩盖物体过度掩盖的分布场景。在本文中,我们通过使用非参数统计方法来完善分割错误来解决3D场景重建中的跨分割质量的问题。为了提高掩模的精度,我们将预测的遮罩映射到深度框架中,以通过内核密度估算它们的分布。然后,对异常值进行深度感知的拒绝,而无需以自适应方式进行额外的pa-rameters,以使其分布外情景,然后使用投影签名的距离函数(SDFS)进行3D重建。我们在合成数据集上验证了我们的方法,该方法显示了全景映射的定量和定性结果的改进。通过现实世界测试,结果还显示了我们方法在实体机器人系统上部署的能力。我们的源代码可在以下网址提供:https://github.com/mkhangg/refined Panoptic映射。
具有挑战性的组合优化问题在科学和工程领域无处不在。最近,人们在不同的环境中开发了几种量子优化方法,包括精确和近似求解器。针对这一研究领域,本文有三个不同的目的。首先,我们提出了一种直观的方法来合成和分析离散(即基于整数)优化问题,其中问题和相应的算法原语使用与编码无关的离散量子中间表示 (DQIR) 来表示。与以前的方法相比,这种紧凑的表示通常可以实现更高效的问题编译、不同编码选择的自动分析、更容易的可解释性、更复杂的运行时过程和更丰富的可编程性,我们通过一些示例对此进行了演示。其次,我们对几种量子比特编码进行了数值研究;结果显示了许多初步趋势,有助于指导为特定硬件集和特定问题和算法选择编码。我们的研究包括与图着色、旅行商问题、工厂/机器调度、金融投资组合再平衡和整数线性规划相关的问题。第三,我们设计了低深度图派生部分混合器 (GDPM),最多 16 级量子变量,证明了紧凑(双
摘要:本文介绍了一种针对语音情感的新型基于图形的学习技术,该技术已专门针对人形机器人内的能源有效部署而定制。我们的方法论代表了可扩展图表示的融合,该图表源于图形信号处理理论的基础原理。通过研究循环或线图的利用,作为塑造强大的图形卷积网络(GCN)构造的基本成分,我们提出了一种方法,可以允许捕获语音信号之间的关系以解码复杂的情感模式和反应。我们的方法与诸如IEMOCAP和MSP -IMPROV之类的既定数据库进行了验证和基准测试。我们的模型优于稳定的GCN和普遍的深度图体系结构,证明了与ART方法论状态相符的性能水平。值得注意的是,我们的模型在显着减少了可学习参数的数量的同时,实现了这一壮举,从而提高了计算效率并加强其对资源约束环境的适用性。这种提出的基于图形的杂种学习方法用于人形机器人内的多模式情绪识别。其提供竞争性能的能力,同时简化计算复杂性和能源效率,这代表了一种新颖的情绪识别系统的新方法,可以满足各种真实世界的应用,其中人类机器人中情绪识别的精确性是一个关键的必要条件。