对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
自我监督学的模型已被发现对诸如自动语音识别,说话者识别等的任务非常有效。但是,它们在言语增强系统中的效用尚未牢固确立,也许有些误解。在本文中,我们将使用SSL表示在具有挑战性的条件下用于增强单渠道语音的用途,并确定它们对增强任务的影响。我们的约束是围绕实时的实时语音增强设计的 - 模型是因果关系,并且计算足迹很小。此外,我们专注于低SNR条件,在这种情况下,这种模型难以提供良好的性能。索引术语:语音增强,WAV2VEC2,GCRN,预训练,知识蒸馏,调理
神经科学对脑网络进行了广泛的研究,以便更好地理解人类行为以及识别和描述神经和精神疾病条件下的分布式脑异常。已经提出了几种用于脑网络分析的深度图学习模型,但大多数当前模型缺乏可解释性,这使得很难从结果中获得任何启发性的生物学见解。在本文中,我们提出了一种新的可解释图学习模型,称为分层脑嵌入(HBE),以根据网络社区结构提取脑网络表示,从而产生可解释的分层模式。我们应用我们的新方法从使用 ICA 从人类连接组计划扫描的 1,000 名年轻健康受试者获得的功能性脑网络中预测攻击性、违反规则和其他标准化行为分数。我们的结果表明,所提出的 HBE 在预测行为指标方面优于几种最先进的图学习方法,并且展示出与临床症状相关的类似分层脑网络模式。
现代生成的对抗网络(gan)通过从潜在的z(即随机向量)中采样(即随机向量),并将其映射到x中的逼真图像(例如3D MRIS),从而实现了完整的3D脑图像的现实生成。为了解决无处不在的模式集合问题,最近的作品强烈强烈施加了某些特征,例如通过编码将x明确映射到z的先验。但是,这些效果无法将3D脑图像准确地映射到所需的先验中,生成器假定是从中对随机向量进行采样的。另一方面,各种自动编码gan(vae-gan)通过通过两个学习的参数强制执行高斯,但会导致图像中的模糊性。在这项工作中,我们展示了我们的循环一致嵌入GAN(CCE-GAN)如何准确地将3D MRI编码为标准的正常先验,并保持生成的图像的质量。我们在没有基于网络的代码歧视器的情况下通过Wasserstein度量实现了这一目标。我们使用ADNI的健康T1加权MRI进行定量和定性评估嵌入和产生的3D MRI。关键字:自动编码器,潜在空间,生成对抗网络,周期同意,3D MRI
1996 年 1 月 1 日之后发布的报告通常可通过美国能源部 (DOE) SciTech Connect 免费获取。网站 www.osti.gov 公众可以从以下来源购买 1996 年 1 月 1 日之前制作的报告: 国家技术信息服务 5285 Port Royal Road Springfield, VA 22161 电话 703-605-6000(1-800-553-6847) TDD 703-487-4639 传真 703-605-6900 电子邮件 info@ntis.gov 网站 http://classic.ntis.gov/ 能源部员工、能源部承包商、能源技术数据交换代表和国际核信息系统代表可以从以下来源获取报告: 科学技术信息办公室 PO Box 62 Oak Ridge, TN 37831 电话 865-576-8401 传真 865-576-5728 电子邮件 reports@osti.gov 网站 http://www.osti.gov/
摘要:本文提出了一种使用嵌入式集成传感器界面的实时热监测方法,该界面专用于工业集成系统应用。工业传感器接口是涉及模拟和混合信号的复杂系统,其中几个参数可以影响其性能。这些包括在敏感的综合电路附近存在热源,需要考虑各种传热现象。这需要实时热监测和管理。的确,瞬态温度梯度或温度差异变化的控制以及先进集成电路和系统早期设计阶段可能引起的热冲击和应力的预测至关重要。本文解决了微电子应用在几个领域的增长需求,这些领域的高功率密度和热梯度差异的差异是由于在同一芯片上实施不同系统(例如新生成5G电路)引起的。为了减轻不良热效应,使用应用于Freescale嵌入式传感器板的McUxPresso工具提出了实时预测算法,并通过将嵌入式传感器编程到FRDM-KL26Z板上,以实时监控和预测其温度预测。基于离散温度测量值,嵌入式系统用于预测嵌入式集成电路(IC)中的过热情况。在本文中,还提供了FPGA实施和比较测量值。这些结果证实了所提出算法的峰检测能力,该算法可令人满意地预测FRDM-KL26Z板中的热峰,并使用有限元元素热分析工具(用于系统分析的数值集成元件(NISA)工具),以评估可能是当地热力学压力的水平。这项工作为热应力和局部系统过热提供了解决方案,这是集成传感器界面设计人员在设计各种高性能技术或恶劣环境中的集成电路时的主要关注点。
少量学习 (FSL) 是从少量训练示例中学习识别以前未见过的图像类别的任务。这是一项具有挑战性的任务,因为可用的示例可能不足以明确确定哪些视觉特征最能体现所考虑类别的特征。为了缓解这个问题,我们提出了一种额外考虑图像类别名称的方法。虽然之前的工作已经探索过类名的使用,但我们的方法在两个关键方面有所不同。首先,虽然之前的工作旨在直接从词嵌入中预测视觉原型,但我们发现通过分别处理视觉和基于文本的原型可以获得更好的结果。其次,我们提出了一种使用 BERT 语言模型学习类名嵌入的简单策略,我们发现该策略大大优于之前工作中使用的 GloVe 向量。此外,我们提出了一种处理这些向量高维性的策略,该策略受到跨语言词嵌入对齐模型的启发。我们对 miniImageNet、CUB 和 tieredImageNet 进行了实验,结果表明我们的方法能够持续提高基于度量的 FSL 的最新水平。
在KHI于2024年5月14日举办的一次召集期间收集了有关指南的反馈,标题为“研究中的居中公平:制定实践策略和确定考虑因素”,以及通过事后调查。召集包括来自堪萨斯州各地的约50名利益相关者,他们审查了这些策略并提供了有价值的反馈,后来又将其纳入了指南。该活动的特色是演讲者EusebioDíaz,M.A。,卫生前进基金会策略,学习与沟通副总裁,来自亚利桑那州立大学的香农·波特略(Shannon Portillo)博士,以及密苏里州肯尼亚大学的M.S.C.R. Bridgette L. Jones,M.S.C.R.。演讲者讨论了研究中的当前公平状态,应对挑战并探索未来的机会。
预测靶基因的扰动如何影响其他基因的表达是理解细胞生物学的关键组成部分。这是一个具有挑战性的预测问题,因为该模型必须捕获复杂的基因关系,并且输出是高维且稀疏的。为了应对这一挑战,我们提出了一种简单的方法,一种利用Genept嵌入的方法,它是使用单个基因的文本描述来得出的,以预测通过正规回归模型扰动引起的基因表达变化。在多种细胞类型和五个不同审慎的基因嵌入模型的八个CRISPR扰动屏幕数据集上进行了基准测试,Genepert始终胜过所有在Pearson相关和均值平方误差指标中测量的所有最新预测模型。即使使用有限的培训数据,我们的模型也有效地概括了,为预测扰动结果提供了可扩展的解决方案。这些发现强调了信息性基因嵌入的力量,以预测硅中看不见的遗传扰动实验的结果。genepert可从https://github.com/ zou-group/genepert获得。
信息检索是一个不断发展且至关重要的搜索域。对高质量人类运动数据的大量需求,尤其是在在线获取中,导致人类运动研究工作的激增。先前的作品主要集中在双模式学习上,例如文本和运动任务,但是很少探索三模式学习。直觉上,额外的引入方式可以丰富模型的应用程序方案,更重要的是,对额外模式的适当选择也可以充当中介,并增强其他两个不同方式之间的对齐方式。在这项工作中,我们介绍了Lavimo(语言视频 - 动作对齐),这是一个三模式学习的新型框架,将以人为中心的视频整合为一种额外的方式,从而可以在文本和运动之间弥合差距。更重要的是,我们的方法利用了一种专门设计的注意机制来增强文本,视频和运动方式之间的一致性和协同作用。经验,我们对HumanML3D和Kit-ML数据集的结果表明,Lavimo在各种与运动相关的跨模式检索任务中实现了最先进的表现,包括文本到动作,动作到运动,视频,视频到视频,动作和动态。我们的项目网页可以在https://lavimo2023.github.io/lavimo/中找到。