单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
摘要 - 这项工作的目的是通过利用视频中音频和视觉流的自然共发生来研究跨模式自我监管的预训练对语音重新构造的影响。我们提出的LIPSOUND2由编码器 - 二次结构和位置意识到的注意机制组成,以将面部图像序列映射到MEL尺度频谱图,而无需任何人类注释。提出的LIPSOUND2模型是在〜2400-h多语言(例如英语和德语)音频数据(Voxceleb2)上首次预先训练。为了验证所提出的方法的普遍性,我们随后在域特异性数据集(网格和TCD-TIMIT)上进行了预训练的模型,以进行英语语音重建,并与依赖于讲话者依赖于依赖于讲话者的依赖于讲话者的言语质量和清晰度相比,对语音质量和清晰度的改善显着提高。除了英语外,我们还对中国普通话唇读(CMLR)数据集进行了中文语音重建,以验证对可转移性的影响。最后,我们通过在预先训练的语音识别系统上培养生成的音频并在英语和中文基准数据集上实现状态性能来训练级联的唇读(视频对文本)系统。
我们要求您在本备忘录发布后 5 天内指定两名联系人负责此次审计。一名联系人应为政府雇员(GS-15、薪级等级或军方同等职位),他们熟悉 F-35 飞行器维护合同。第二名联系人应为高级行政服务人员或将军/将官,他们熟悉维护合同,必要时可充当国防部监察长办公室高级领导的联络点。将每位联系人的姓名、职务、级别/薪级、电话号码和电子邮件地址发送至 audclev@dodig.mil。
自我监督的单眼深度估计(DE)是一种学习深度的方法,没有昂贵的深度地面真理。但是,它经常在移动物体上挣扎,这些物体违反了训练期间的静态场景假设。为了结束这个问题,我们介绍了一个粗到最新的训练策略,该策略利用了地面与先验接触的地面,该期望是在户外场景中大多数移动物体在地面上造成的。在粗糙的训练阶段,我们将动态类中的对象排除在再投入损失计算中,以避免深度学习不准确。为了对物体的深度进行精确的监督,我们提出了一种新颖的接地式差异平滑度损失(GDS-loss),该损失(GDS-loss)鼓励DE网络将物体的深度与其接地接触点保持一致。随后,在精细的训练阶段,我们完善了DE网络,以了解重新投影损失中对象的详细深度,同时通过使用基于成本量的加权因素利用我们的正则化损失来确保对移动对象区域的准确DE。我们的整体粗表表训练策略可以轻松地与无需修改的方法集成,从而显着提高了挑战性的城市景观和KITTI数据集的DE性能,尤其是在移动对象区域中。
摘要 - 深度学习的进展使得通过分析视频在智能环境中远程估算心率变得越来越可行。但是,深度学习方法的一个显着局限性是他们对广泛的标记数据集以进行有效培训的广泛依赖。为了解决这个问题,自我监督的学习已成为有前途的途径。在此基础上,我们引入了一种解决方案,该解决方案利用自我监督的对比度学习来估算远程光插曲 - 声学(PPG)和心率监测,从而降低了对标记数据的依赖性并增强性能。我们建议使用3个空间和3个时间扩增来通过对比度框架训练编码器,然后利用编码器的晚期中间嵌入来进行远程PPG和心率估计。我们在两个公开可用数据集上的实验展示了我们对几种相关作品以及监督学习基准的改进方法的改进,因为我们的结果接近了最先进的方法。我们还进行了彻底的实验,以展示使用不同设计选择的效果,例如视频表示方法,在训练阶段中使用的增强和其他选择。我们还证明了我们提出的方法对减少标记数据的监督学习方法的鲁棒性。
生物医学图像计算和分析中心,放射学系B,抑郁和压力神经调节中心,精神病学系F,宾夕法尼亚州寿命和神经成像中心G,宾夕法尼亚州/CHOP LIFESPAN脑研究所H 102206,中国脑电路实时追踪的主要实验室(BCRTT-LAB)D,天津大学附属的天津第四中心医院;中国天津天津大学精神病学系 *通信:yong.fan@pennmedicine.upenn.edu生物医学图像计算和分析中心,放射学系B,抑郁和压力神经调节中心,精神病学系F,宾夕法尼亚州寿命和神经成像中心G,宾夕法尼亚州/CHOP LIFESPAN脑研究所H 102206,中国脑电路实时追踪的主要实验室(BCRTT-LAB)D,天津大学附属的天津第四中心医院;中国天津天津大学精神病学系 *通信:yong.fan@pennmedicine.upenn.edu
抽象访问磁共振成像(MRI)对相同受试者进行扫描,包括各种对比度和野外强度,对于涉及涉及监督图像翻译的大脑研究至关重要,以预测缺失或无法获得的MRI数据。但是,涵盖低场和高场的此类数据集稀缺。为了弥合此间隙,我们提出了一个半合成的数据集,包括在1.5t和3t的T1,T2和PD中,在同一受试者的T1,T2和PD对比度中,在T1,T2和PD对比度上有一个半合成的数据集。我们还以2维格式呈现它,使其与广泛的模型兼容。我们使用评估指标以及基于形态的方法评估了我们提出的数据集,并使用我们的数据集在不同应用程序中展示了基于U-NET的架构的性能。最后,我们发布数据集,以促进涉及多对比MR图像翻译的未来研究。
评估地下储层连接的方案对于整个项目生命周期的现场耗竭计划,生产历史匹配和现场管理至关重要。连通性场景受到地质特征(例如挡板和高渗透率条纹)的存在挑战,这些条纹低于地震成像的分辨率。在这里,我们提出了一种新颖的,综合的和快速的无监督的机器学习方法,用于构建具有地震分辨率的一套储层模型,这些模型与地震数据,井原木和地层概念一致。首先,我们使用称为方向扩散的良好计算机图形方法将井的日志(垂直或横向)与地震倒的Vclay和孔隙率集成在一起。我们使用无监督的机器学习方法(称为扩散概率建模(DPM))对机器学习模型进行训练。一旦受过训练,该方法就会生成一套允许的地质场景(模型),具有替代分辨率的特征,这些特征是由基于地层概念的输入训练图像指导的,并且与地震和良好的日志数据一致。以后,我们将推断的方案采样到储层模型中,该场景允许以显着改善分辨率的流量模拟。对生产模型集的储层模拟在其动态性能上显示出显着差异,尽管如此,与地震和井原木等地面真相数据保持一致。这种方法的结果通过空间有限的数据分辨率对地下储层表征产生更广泛的影响,尤其是通过添加亚观察地质特征来加速和整合储层模型的过程。
摘要 - 大型多模型现在已在全球范围内广泛使用,最强大的模型在大规模的通用数据集中受过训练。尽管它们迅速部署,但仍关注培训数据的质量和领域相关性,尤其是在放射学,医学研究和神经科学方面。此外,当查询接受医疗数据训练的模型时,医疗保健数据隐私至关重要,有关服务托管和数据存储的透明度也是如此。到目前为止,放射学研究中的大多数深度学习算法旨在执行特定任务(例如诊断分类),并且不能提示使用自然语言执行多个任务。在这项工作中,我们引入了一个基于矢量检索和对比度学习的框架,以通过自然语言监督有效地学习视觉脑MRI概念。我们展示了该方法如何通过联合嵌入和自然语言监督来识别影响阿尔茨海默氏病(AD)的大脑的因素。首先,我们使用自我监督的学习预处理文本和图像编码器,并共同微调这些编码器以开发共享的嵌入空间。我们训练模型执行多个任务,包括MRI检索,MRI字幕和MRI分类。我们通过开发检索和重新排列的机制以及用于视觉问题回答的变压器解码器来显示其多功能性。
抽象可解释的建议很重要,但尚未在大规模开放的在线课程(MOOC)中探索。最近,知识图(kg)在可解释的建议中取得了巨大成功。但是,电子学习方案具有一些独特的限制,例如学习者的知识结构和课程前提条件要求,导致现有的基于KG的建议方法在MOOC中工作不佳。为了解决这些问题,我们提出了一个新颖的可解释的建议模型,即通过自我监督的r genning(KRRL)进行k nowledge-knowledge-resountion。特别是为了增强kg中的语义表示和关系,一种多级表示学习方法丰富了语义相互作用的感知信息。之后,一种自我监督的强化学习方法有效地指导了KG上的路径推理,以匹配电子学习场景中的独特约束。我们在两个现实世界的MOOC数据集上评估了KRRL模型。实验结果表明,就建议准确性和解释性而言,KRRL显然优于最先进的基线。