3D人姿势估计(3D HPE)任务使用2D图像或视频来预测3D空间中的人类关节坐标。尽管最新的基于深度学习的方法取得了进步,但它们主要忽略了可访问的文本和自然可行的人类知识的能力,而错过了有价值的隐性监督,以指导3D HPE任务。此外,以前的努力经常从整个人体的角度研究这项任务,从而忽略了隐藏在不同身体部位的细粒度指导。为此,我们基于3D HPE的扩散模型(名为FinePose)提出了一个新的细粒及时驱动的DeNoiser。它由三个核心块组成,增强了扩散模型的反向过程:(1)通过耦合辅助辅助文本和可学习的提示以模拟隐式指南的耦合知识,并通过耦合的辅助辅助文本和自然可行的零件知识,可以通过耦合的辅助辅助文本和自然可行的零件知识来构建精细的部分零件感知的提示。(2)Fine-
跨视图图像地理位置定位旨在通过用GPS标记的卫星图像补丁绘制当前的街道视图图像来确定户外机器人的位置。最近的作品在识别卫星贴片中达到了显着的准确性,该卫星贴片在机器人所在,其中将中央像素在匹配的卫星贴片中用作机器人粗糙位置估计。这项工作着重于机器人在已知的卫星贴片中的细粒度定位。现有的细颗粒定位工作利用相关操作来获得卫星图像本地描述符和街道视图全局描述符之间的相似性。基于衬里匹配的相关操作简化了两个视图之间的相互作用过程,从而导致距离误差很大并影响模型的概括。为了解决这个问题,我们设计了一个具有自我注意力和跨注意层的跨视图功能fu-sion网络,以取代相关操作。此外,我们将分类和回归预测结合在一起,以进一步降低位置距离误差。实验表明,我们的新型网络体系结构的表现优于最先进的,可以在看不见的地区更好的概括能力。具体而言,我们的方法在同一区域和在活力基准的同一区域和看不见的区域中分别将中位定位距离误差降低了43%和50%。
准确的工具跟踪对于计算机辅助干预的成功至关重要。以前的努力通常会严格地对工具轨迹进行建模,从而俯瞰外科手术程序的动态性质,尤其是跟踪诸如身体外和相机外视图之类的场景。在解决此限制时,新的CholectRack20数据集提供了详细的标签,以三个角度说明多个工具轨迹:(1)术中,(2)体内和(3)可见性,代表不同类型的工具轨迹时间。这些细粒标签可增强跟踪灵活性,但也提高了任务复杂性。由于高视觉相似性,尤其是在同一类别的工具中,遮挡或重新插入身体后的工具仍然具有挑战性。这项工作认识到工具操作员在区分工具轨道实例中的关键作用,尤其是属于同一工具类别的工具轨道实例。但是,在手术视频中未明确捕获操作员的信息。因此,我们提出了Surgitrack,这是一种利用Yolov7进行精确工具检测的新型深度学习方法,并采用了注意机制来对工具的起源方向进行建模,作为其操作员的代理,以重新识别工具。为了处理各种工具轨迹的观点,Surgitrack采用了协调的两分匹配图,最大程度地减少冲突并确保准确的工具身份关联。cholectrack20的实验结果证明了外科手术的有效性,优于实时推理能力的最先进方法和最先进的方法。这项工作为手术工具跟踪设定了新的标准,为在微创手术中提供了更适合适应性和精确的帮助。
学习以场景图的形式从原始信息组成视觉关系是一项高度挑战的任务,这是由于上下文依赖性的,但是在依赖于场景所在的现场视觉应用程序中至关重要。但是,场景图生成(SGG)中没有当前的方法旨在为下流任务提供有用的图形。相反,主要重点主要是公开数据分布以预测更多细粒关系的任务。据说,所有的关系关系都不相同,至少其中一部分对现实世界应用没有用。在这项工作中,我们介绍了有效的SGG的任务,该任务旨在阐述相关关系的产生,从而促进了在下游任务(例如图像生成)中使用场景图的使用。为了支持进一步的方法,我们根据流行的Visual Genome数据集的注释提出了一个新的数据集,即VG150策划的新数据集。我们通过一组实验表明,该数据集包含比通常在SGG中使用的数据更高质量和多样的注释。最后,我们显示了从场景图1中生成图像生成的任务中该数据集的效率。
群体成像显著增加了功能成像数据集的大小,为个体间差异的神经基础提供了新的见解。分析这些大数据带来了新的可扩展性挑战,包括计算和统计方面的挑战。因此,大脑图像通常总结为几个信号,例如使用大脑图谱或功能模式减少体素级测量值。选择相应的大脑网络非常重要,因为大多数数据分析都是从这些减少的信号开始的。我们贡献了精细解析的功能模式图谱,包含 64 到 1024 个网络。这些功能模式词典 (DiFuMo) 是在数百万个 fMRI 功能性大脑体积上训练的,总大小为 2.4TB,涵盖了 27 项研究和许多研究小组。我们展示了在我们的细粒度图谱中提取精简信号对许多经典功能数据分析流程的好处:从 12,334 个大脑反应中解码刺激、跨会话和个体的 fMRI 标准 GLM 分析、提取 2,500 个个体的静息状态功能连接组生物标志物、对超过 15,000 个统计图进行数据压缩和荟萃分析。在每一个分析场景中,我们都将我们的功能图谱与其他流行参考资料的性能进行比较,并与简单的体素级分析进行比较。结果强调了使用高维“软”功能图谱来表示和分析大脑活动同时捕捉其功能梯度的重要性。高维模式的分析实现了与体素级类似的统计性能,但计算成本大大降低,可解释性更高。除了提供它们之外,我们还根据这些模式的解剖位置为其提供有意义的名称。这将有助于报告结果。
使用光学相干断层扫描(OCT)图像对大型脉络膜血管进行精确分割,使前所未有的定量分析能够理解脉络膜疾病。在本文中,我们提出了一个称为MFGNET的新型多尺度和精细网络。由于脉络膜血管是小目标,因此需要考虑远距离依赖性,因此,我们开发了一个两组细粒的特征提取模块,可以将变压器提取的远程信息与在两个分支之间引入信息交换的卷积中提取的局部信息。为了解决OCT图像中脉络膜血管的低对比度和模糊边界的问题,我们开发了一个较大的内核和多尺度注意模块,该模块可以通过多尺度卷积内核,通道混合和特征进行补充来改善目标区域的特征。我们用手动注释的大型脉络膜容器在800 OCT图像上定量评估了MFGNET。实验结果表明,与当前可用的最先进的分割网络相比,所提出的方法具有最佳性能。值得注意的是,根据分割结果将大型脉络膜血管在三个维度(3D)中重建,并计算了几个3D形态参数。对这些参数的统计分析揭示了健康对照组和高近视组之间的显着差异,从而确认了拟议工作在促进后来对疾病和临床决策的促进方面的价值。
保护敏感数据在各个领域至关重要,包括信息技术,网络安全和医疗保健记录。在大型网络中实施加密数据的精确访问策略至关重要。基于属性的加密(ABE)是解决此挑战的解决方案,同时启用加密和访问控制。由于量子计算的进步,量子安全措施的重要性越来越大,对加密数据的量子抗性访问控制机制的需求越来越不断提高,这是基于基于晶格的属性加密所指的。但是,一些现有的基于格子的安倍计划缺乏对细粒度访问政策的强大支持。本文介绍了改进的基于关键策略属性的加密(KP-ABE)方案,该方案扩展了超出阈值门以支持任何布尔电路。在无法区分的CPA游戏下,在选择性安全模型中以错误(LWE)的假设为基础,拟议方案的安全性基于学习。值得注意的是,该方案非常适合布尔函数的分离正常形式(DNF)表示,为加密数据提供了增强的灵活性和访问控制机制的安全性和安全性。
摘要 - 它仍然是一个重大的挑战,如何在语音产生中进行定量控制语音情感的表现力。在这项工作中,我们提出了一种方法来定量操纵情感的情感,以编辑语音生成。我们应用层次情感分布提取器,即层次结构,可以量化不同粒度水平的情绪强度。层次结构ED随后集成到FastSpeech2框架中,指导模型以在音素,单词和话语水平上学习情感强度。在合成过程中,用户可以手动编辑生成的声音的情感强度。客观和主观评估都证明了拟议网络在细粒度的定量情绪编辑方面的有效性。
自主人工智能(AI)代理已经成为有前途的协议,以理解基于语言的环境,尤其是在大型语言模型(LLM S)的指数发展中。然而,多模式环境的细粒度,全面的不阐述不足。这项工作设计了一种量身定制的AU级工作流,该工作流无缝地集成到混合现实中(MR)进行细粒度的培训。我们在飞行员MR环境中为乐高砖组装的多模式细粒训练助手提供了演示。具体来说,我们设计了一种大脑语言代理,将LLM S与MR工具和视觉语言代理的内存,计划和互动集成在一起,使代理能够根据过去的经验来决定其行动。此外,我们推出了Lego-MRTA,这是一种多模式细粒组件Di-Alogue DataSet,在商业LLM提供的工作流程中自动合成。该数据集包括多模式指令的操作,对话,MR响应和视觉问题回答。最后,我们将几个流行的开放式LLM S作为基准,评估了他们在建议的数据集中进行微调的情况下的性能。我们要抗衡,该工作流的更广泛的影响将推动对MR环境中无缝用户互动的更智能分析的发展,从而促进了AI和HCI社区的研究。
抽象的Sub-6GHz无线电传感提供了几种引人注目的优势,例如对较差的照明条件,隐私保护和透过墙壁看的能力。然而,在室内环境中,sub-6GHz ISM频谱被WiFi设备占据了很大,几乎没有用于感应目的的可用频谱。在本文中,我们介绍了Siwis,这是一种将无线电传感能力整合到单个WiFi设备中以进行细粒度人类活动的新方法。siwis包括两个主要组件:(i)一个可以轻松安装在离式wifi设备上的新硬件组件,以及(ii)优化的双分支深度神经网络(DNN),以进行同时的人掩膜掩护和姿势估计。我们已经建立了Siwis的原型,并将其安装在商业WiFi路由器上以进行评估。广泛的实验结果表明,基于WiFi通道状态信息(CSI)的传感方法的性能有所改善。更重要的是,零击实验证实可以将Siwis直接传输到看不见的现实环境中。