图像包含大量冗余信息,使其具有挑战性地在大规模上从它们中有效地了解它们。最近的工作通过在视觉语言构想学习期间掩盖图像贴片来解决这个问题[15,33,36,70]。一种简单的方法是随机放下大部分斑块,通过降低每个训练迭代中的计算成本和记忆使用量,从而更有效地培训训练[36]。替代策略是掩盖语义相关的贴片[15,33,70],例如属于同一对象的贴片。这迫使学习的模型预测从上下文中描述缺少场景结构的单词,从而改善了学识渊博的表示。但是,这种方法需要一种单独的机制来将语义重新贴定的补丁分组在一起,这为学习过程增加了相当大的复杂性,并且计算上很昂贵。我们提出了一种简单的掩盖策略,用于避免这些缺点的多模式对比学习。在训练期间,我们掩盖了斑块的随机簇(图1)。对于此聚类,我们将Patches的原始RGB值用作特征表示。我们的方法利用了一个事实,即视觉相似性的简单度量通常可以限制相干的视觉结构,例如对象部分[18,53],
摘要本文介绍了GSCORE,这是一个硬件加速器单元,该单元有效地执行了使用算法优化的3D Gauss-ian剥落的渲染管道。GSCORE基于对基于高斯的辐射场渲染的深入分析的观察,以提高计算效率并将技术带入广泛采用。在此过程中,我们提出了几种优化技术,高斯形状感知的交叉测试,分层排序和下图跳过,所有这些都与GSCORE协同集成。我们实施了GSCORE的硬件设计,使用商业28NM技术进行合成,并评估具有不同图像分辨率的一系列合成和现实世界场景的性能。我们的评估要求表明,GSCORE在移动消费者GPU上实现了15.86倍的速度,其面积较小,能源消耗较低。
摘要:本研究探索了EEG信号中突出的信号,并提出了一种基于EEG信号识别情绪体验和心理状态的有效方法。首先,使用PCA将数据的维度从2K和1K降低到10和15,同时提高了性能。然后,针对构建基于EEG的识别方法的高质量训练数据不足的问题,提出了一种多生成器条件GAN,通过使用不同的生成器来生成覆盖实际数据更完整分布的高质量人工数据。最后,为了进行分类,引入了一种新的混合LSTM-SVM模型。所提出的混合网络在EEG情绪状态分类中获得了99.43%的整体准确率,在识别心理状态方面表现出色,准确率达到99.27%。所介绍的方法成功地结合了机器学习的两个突出目标:高精度和小特征尺寸,并展示了在未来分类任务中利用的巨大潜力。
已注册的账户可选择 Merrill 指定为税收效率管理风格经理策略或风格经理策略的可用风格经理策略。风格经理策略是一种管理策略,以税收效率管理作为其投资组合管理投资方法的目标。在这种策略中,投资经理采用各种税收效率管理方法,例如寻求机会出售亏损的证券,并在出售日期后至少 30 天内将收益投资于与策略一致的替代证券。
©作者2024。Open Access本文是根据Creative Commons Attribution 4.0 International许可获得许可的,该许可允许以任何媒介或格式使用,共享,适应,分发和复制,只要您对原始作者和来源提供适当的信誉,请提供与创意共享许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的创意共享许可中,除非在信用额度中另有说明。如果本文的创意共享许可中未包含材料,并且您的预期用途不受法定法规的允许或超过允许的用途,则您需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://创建ivecommons。org/licen ses/by/4。0/。
主动深度传感可实现强大的深度估计,但通常受感应范围的限制。天真地增加光学能力可以改善传感范围,但对许多应用(包括自主机器人和增强现实)的视力安全关注。在本文中,我们提出了一个自适应的主动深度传感器,该传感器可以共同介绍范围,功耗和眼部安全。主要观察结果是,我们不需要将光模式投影到整个场景,而只需要在关注的小区域中,在应用程序和被动立体声深度所需的深度失败的情况下。理论上将这种自适应感知方案与其他感应策略(例如全帧投影,线扫描和点扫描)进行了比较。我们表明,为了达到相同的最大感应距离,提出的方法在最短(最佳)眼部安全距离时会消耗最小的功率。我们用两个硬件原型实现了这种自适应感测方案,一个具有仅相位空间光调制器(SLM),另一个带有微电动机械(MEMS)镜像和衍射光学元素(DOE)。实验结果验证了我们方法的优势,并证明了其能力自适应地获得更高质量的几何形状。请参阅我们的项目网站以获取视频结果和代码:
基于锚点的大规模多视图聚类因其在处理海量数据集方面的有效性而引起了广泛关注。然而,当前的方法主要通过探索锚点图或投影矩阵之间的全局相关性来寻找用于聚类的共识嵌入特征。在本文中,我们提出了一种简单而有效的可扩展多视图张量聚类(S 2 MVTC)方法,我们的重点是学习视图内和跨视图的嵌入特征的相关性。具体而言,我们首先通过将不同视图的嵌入特征堆叠到张量中并旋转它来构造嵌入特征张量。此外,我们构建了一种新颖的张量低频近似(TLFA)算子,它将图相似性结合到嵌入特征学习中,有效地实现不同视图内嵌入特征的平滑表示。此外,对嵌入特征应用共识约束以确保视图间语义一致性。在六个大规模多视图数据集上的实验结果表明,S 2 MVTC 在聚类性能和 CPU 执行时间方面明显优于最先进的算法,尤其是在处理海量数据时。S 2 MVTC 的代码已公开发布在 https://github.com/longzhen520/S2MVTC。
单粒子冷冻电子显微镜(Cryo-EM)已成为主流结构生物学技术之一,因为它具有确定动态生物分子的高分辨率结构的能力。但是,冷冻EM数据获取仍然是昂贵且劳动力密集的,需要大量的专业知识。结构生物学家需要一种更高效,更客观的方法来在有限的时间范围内收集最佳数据。我们将Cryo-EM数据收集任务制定为这项工作中的优化问题。目标是最大化指定期间拍摄的好图像的总数。我们表明,强化学习是一种有效的方法来计划低温EM数据收集,并成功导航异质的低温EM网格。我们开发的AP-PRACH,CRYORL,在类似设置下的数据收集的平均用户表现出了更好的表现。
本文介绍了 DeepFLASH,一种用于基于学习的医学图像配准的高效训练和推理的新型网络。与从高维成像空间中的训练数据中学习空间变换的现有方法相比,我们完全在低维带限空间中开发了一种新的配准网络。这大大降低了昂贵的训练和推理的计算成本和内存占用。为了实现这一目标,我们首先引入复值运算和神经架构表示,为基于学习的配准模型提供关键组件。然后,我们构建了一个在带限空间中完全表征的变换场的显式损失函数,并且参数化要少得多。实验结果表明,我们的方法比最先进的基于深度学习的图像配准方法快得多,同时产生同样精确的对齐。我们在两种不同的图像配准应用中展示了我们的算法:2D 合成数据和 3D 真实脑磁共振 (MR) 图像。我们的代码可以在https://github.com/jw4hv/deepflash上找到。
