此预印本的版权所有者此版本于 2024 年 2 月 28 日发布。;https://doi.org/10.1101/2024.02.26.582022 doi:bioRxiv preprint
自动疼痛评估可以定义为一组用于识别疼痛状态的计算机辅助技术。可靠有效的疼痛评估方法对于客观和持续监测无法口头交流的人的疼痛至关重要。在这项研究中,我们提出了一种通过分析面部表情来识别疼痛的新方法。更具体地说,我们评估了图神经网络 (GNN) 架构的有效性,该架构利用了一组自动跟踪受试者面部的基准点的固有图结构。在公开可用的数据集 BioVid 上进行的实验表明,与基线模型相比,所提出的方法在动作疼痛方面达到了更高的准确度,同时在自发性疼痛方面也超越了最先进的方法。
Cheraghian 等人 [ 21 – 23 ] 在零样本 3 维模型分类方 面提出了 3 维点云的零样本学习方法、缓解 3 维零样 本学习中枢纽点问题的方法和基于直推式零样本学 习的 3 维点云分类方法,并将它们封装进一个全新 的零样本 3 维点云方法 [ 24 ] 中。以上方法均是利用已 知类样本的点云表征及其词向量对未知类别进行分 类,开创了零样本 3 维模型分类方法。近年来, CLIP 在零样本图像分类上取得了良好的效果,因此有研 究者将 CLIP 应用到零样本 3 维模型分类方法中, Zhang 等人 [ 25 ] 提出了基于 CLIP 的 3 维点云理解 (Point cloud understanding by CLIP, PointCLIP) 模型, PointCLIP 首先将 3 维点云投影成多个深度图,然 后利用 CLIP 的预训练图像编码器提取深度图特 征,同时将类别名称通过 CLIP 预先训练的文本编 码器提取文本特征。但是 PointCLIP 的性能受到深 度图和图像之间的域差异以及深度分布的多样性限 制。为了解决这一问题,基于图像 - 深度图预训练 CLIP 的点云分类方法 (transfer CLIP to Point cloud classification with image-depth pre-training, CLIP2Point) [ 26 ] 将跨模态学习与模态内学习相结合 训练了一个深度图编码器。在分类时,冻结 CLIP 的图像编码器,使用深度图编码器提取深度图特 征,该方法缓解了深度图和图像间的模型差异。用 于 3 维理解的图像 - 文本 - 点云一致性表征学习方法 (learning Unified representation of Language, Im- age and Point cloud for 3D understanding, ULIP) [ 27 ] 构建了一个图像、文本和点云 3 种模态的 统一嵌入空间,该方法利用大规模图像 - 文本对预 训练的视觉语言模型,并将 3 维点云编码器的特征 空间与预先对齐的视觉 - 文本特征空间对齐,大幅 提高了 3 维模型的识别能力。与之相似的是,基于 提示文本微调的 3 维识别方法 (CLIP Goes 3D, CG3D) [ 28 ] 同样使用 3 元组形式确保同一类别的 3 维模 型特征和图像特征之间以及 3 维模型特征和文本特 征之间存在相似性,从而使点云编码器获得零样本 识别的能力。另外, PointCLIP V2 [ 29 ] 在 Point- CLIP 的基础之上,通过利用更先进的投影算法和 更详细的 3 维模型描述,显着提高了零样本 3 维模型 分类准确率。本文采用语义增强 CLIP 解决图像和文 本的语义鸿沟问题,通过在语义层面为图像和文本 提供更多相似的语义信息,使图像和文本对齐更具有 一致性,从而有效提高 3 维模型的零样本分类性能。 2.2 提示工程
摘要:近几十年来,许多不同的政府和非政府组织将测谎用于各种目的,包括确保犯罪供词的真实性。因此,这种诊断是用测谎仪来评估的。然而,测谎仪有局限性,需要更可靠。这项研究介绍了一种使用脑电图 (EEG) 信号检测谎言的新模型。为实现这一目标,我们创建了一个包含 20 名研究参与者的 EEG 数据库。本研究还使用六层图卷积网络和 2 型模糊 (TF-2) 集进行特征选择/提取和自动分类。分类结果表明,所提出的深度模型可以有效区分真话和谎言。因此,即使在嘈杂的环境中 (SNR = 0 dB),分类准确率仍保持在 90% 以上。所提出的策略优于当前的研究和算法。其卓越的性能使其适用于广泛的实际应用。
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
图 1。研究区域概览:2017 年飞机生成的积雪深度图(黑色)、2018 年积雪深度图范围(蓝色)以及 2019 年、2020 年和 2021 年各自航班得出的积雪深度区域(红色;对应于主要研究区域)。此外,还显示了 2018 年和 2021 年 UAS 覆盖的参考数据区域(绿色)。插图中的红色多边形描绘了瑞士主要研究区域的位置(地图来源:联邦地形局)。140
摘要。在本文中,我们提出了一个完整的框架,即水星,该框架结合了计算机视觉和深度学习算法,以在驾驶活动期间不断地与驾驶员持续了解。拟议的解决方案符合具有挑战性的汽车环境所施加的要求:光线不变,以便使系统能够工作,无论一天中的时间和天气状况如何。因此,基于红外的图像,即深度图(每个像素对应于传感器和场景中的那个点之间的距离)与传统强度图像相结合。第二,由于在驾驶活动中不得阻止驾驶员的运动,因此需要系统的非侵入性:在这种情况下,使用凸轮和基于视觉的算法是最好的解决方案之一。最后,需要实时性能,因为监测系统必须在检测到潜在危险的情况后立即做出反应。关键字:驱动程序监视·人类互动·计算机视觉·深度学习·卷积神经网络·深度图
摘要 - 随着自动驾驶和机器人导航的快速进步,对能够估计度量(绝对)深度的终身学习模型的需求不断增长。终身学习方法可能在模型培训,数据存储和收集方面可以节省大量成本。但是,RGB图像和深度图的质量是传感器的,现实世界中的深度图具有特定的特定特征,从而导致深度范围的变化。这些挑战将现有方法限制为具有较小的域差距和相对深度图估计的终身学习。为了促进终生的度量深度学习,我们确定了需要注意的三个至关重要的技术挑战:i)开发一个能够通过尺度感知的深度学习来解决深度尺度变化的模型,ii)设计有效的学习策略来处理明显的域间隙,iii III)为在实践应用中创建一个自动化的解决方案。基于上述考虑因素,在本文中,我们提出了一个轻巧的多头框架,有效地解决了深度尺度的不平衡,ii)一种不确定性的意识到的终身学习解决方案,可熟练处理重要的域域,iii)一种在线域特异性预测方法,以实现实时的预测方法。通过广泛的数值研究,我们表明该方法可以实现良好的效率,稳定性和可塑性,从而使基准测试幅度约为15%。该代码可在https://github.com/ freeformrobotics/lifelong-monodepth上找到。
计算建模是现代药物发现的重要组成部分。其最重要的应用之一是选择有希望的药理学相关靶蛋白候选药物。由于结构生物学的不断进步,在与各种疾病相关的众多蛋白质中发现了小有机分子的假定结合位点。这些宝贵的数据为通过应用数据挖掘和机器学习来构建预测靶位结合分子的有效计算模型提供了新的机会。特别是,深度神经网络是一种强大的技术,能够从复杂数据中学习,从而做出明智的药物结合预测。在本文中,我们描述了 Pocket2Drug,这是一种深度图神经网络模型,用于预测给定配体结合位点的结合分子。这种方法首先从大量口袋结构数据集中通过监督训练学习小分子的条件概率分布,然后从训练模型中抽样候选药物。全面的基准模拟表明,与传统的药物选择程序相比,使用 Pocket2Drug 显著提高了找到与靶口袋结合的分子的机会。具体来说,已知结合物针对测试集中存在的多达 80.5% 的靶标生成,而测试集由与用于训练深度图神经网络模型的数据不同的数据组成。总体而言,Pocket2Drug 是一种很有前途的计算方法,可用于指导新型生物制药的发现。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。