DNA测序数据的指数增长需要有效的解决方案,以存储和查询大规模𝑘 -MER集。虽然最近的索引方法使用频谱的弦乐集(SPS),全文索引或哈希,但它们通常会施加结构性约束或需求广泛的参数调整,从而限制了其在不同数据集和数据类型上的可用性。在这里,我们提出了FMSI,这是一种最小的参数,高度空间效率的成员索引和压缩字典,用于任意𝑘 -MER集。fmsi将近似最短的超级弦与蒙面的洞穴 - 轮毂变换(MBWT)结合在一起。与传统方法不同,FMSI在没有预定义的假设上进行操作,而对𝑘 -mer重叠模式则可以利用它们。我们证明,与第二好的竞争对手相比,FMSI比SSHASH,SBWT和CBL等已建立的索引提供了卓越的存储效率,其空间节省最高为2-3倍,具体取决于数据集,𝑘 -MER大小,采样,采样和基因组复杂性,同时支持快速成员和词典成员和义务质量。总体而言,这项工作将基于超弦的索引作为基因组数据的高度通用,灵活且可扩展的方法,并在Pangenomics,宏基因组学和大规模基因组数据库中进行了直接应用。
本演讲中的陈述不是历史事实的陈述是前瞻性的陈述。这种前瞻性陈述包括但不限于关于:Vir Biotechnology的肿瘤学实体肿瘤组合,临床前管道和Pro-Xten TM掩盖TCE平台的治疗潜力,以及VIR Biotechnology的策略,计划和期望与之相关; VIR生物技术的CHD和CHB计划的治疗潜力,以及Vir Biotechnology的战略,计划和期望与此相关;生物技术对其他管道计划的期望和VIR生物技术的潜力; Vir Biotechnology的现金余额和预期的现金跑道; VIR生物技术对其肿瘤学和肝炎计划的临床开发计划和期望,包括用于正在进行的和计划的临床试验的方案和入学方案,潜在的合作机会,数据读数和演示文稿以及预期的时间表; VIR生物技术研究疗法的潜在益处,安全性和功效;人工智能和机器学习对VIR生物技术的研发工作的潜在影响;以及任何上述任何假设。诸如“目标”,“预期”,“相信”,“可以”,“期望”,“目标”,“打算”,“五月”,“计划”,“潜在”,“有前途”,“意志”,“意志”和类似的表达方式都旨在识别前瞻性陈述,尽管并非所有的前瞻性陈述都必须包含这些识别的词语。这些前瞻性陈述是基于VIR生物技术管理的信念,以及当前可用于管理的假设和信息。这种陈述反映了VIR生物技术对未来事件的当前观点,并受到已知和未知风险的影响,包括但不限于限制:意外的安全性或有效性数据或在临床试验或数据读数中观察到的结果; VIR生物技术与监管机构的计划互动的时间和结果;获得监管批准的困难;对于VIR Biotechnology的各种合作的预期收益是否可以实现,包括与其他可能是VIR生物技术竞争对手合作或以其他方式具有不同利益的公司合作的困难;获得制造能力的挑战;临床部位激活率或临床试验入学率低于预期;通过Vir Biotechnology的竞争对手以及预期或现有竞争的变化,成功开发和/或商业化替代产品候选者; VIR生物技术在努力中使用人工智能和机器学习,以设计下一代蛋白质以及其他研究和开发工作;实际支出的时间和数量,包括不限于Vir Biotechnology预期的GAAP R&D和SG&A支出;地缘政治变化或其他外部因素;以及意外的诉讼或其他争议。鉴于这些风险和不确定性,可能不会发生前瞻性陈述中提到的事件或情况。药物开发和商业化涉及高风险,只有少量的研发计划才会导致产品商业化。结果进行早期临床试验可能不会表明较晚或大规模临床试验的完整结果或结果,也不能确保监管批准。实际结果可能与预期的结果有所不同,并且变化可能是重要的。在公司向美国证券交易委员会提交的文件中讨论了可能导致公司实际结果与当前预期不同的因素,其中包括其中包含的“风险因素”的部分。这些前瞻性陈述不应被视为预测或诺言,也不应将其视为暗示任何迹象,保证或保证做出了这种前瞻性陈述的假设是正确或详尽的,或者在假设的情况下,在本演讲中完全指出。您被告知不要不依赖提出的科学数据或这些前瞻性陈述,这些陈述仅在本演讲之日起说明。除法律要求外,VIR Biotechnology没有义务公开更新任何前瞻性陈述,无论是由于新信息,未来事件还是其他方式。vir生物技术声称,保护安全港对1995年《私人证券诉讼改革法案》中包含的前瞻性陈述进行保护。
在蒙版的图像建模(MIM)中,存在两个主要方法:像素MIM和潜在MIM,每个方法分别利用不同的重建目标,原始像素和潜在表示。Pixel Mim倾向于捕获低级视觉细节,例如颜色和纹理,而潜在MIM专注于对象的高级语义。但是,每种方法的这些独特的优势可以导致依赖特定视觉特征的任务中的次优性能。为了解决这一限制,我们提出了Pilamim,这是一个统一的框架,结合了像素MIM和潜在MIM以整合其互补优势。我们的方法使用单个编码器以及两个不同的解码器:一个用于预测像素值,另一种用于潜在表示,可确保捕获高级和低级视觉特征。我们将[Cls]令牌进一步集成到重建过程中,以汇总全局上下文,从而使模型能够捕获更多的语义信息。广泛的实验表明,在大多数情况下,Pilamim优于MAE,I-JEPA和BOOTMAE等关键基线,证明了其在提取更丰富的视觉表示方面的有效性。该代码可在https://github.com/joonmy/pilamim.git上找到。
swath(1.4 km)。此外,凭借其太阳同步轨道,Cloudsat在同一当地时间经过赤道,将观察结果限制为在一天中的特定时间内“快照”。相比之下,成像仪器在更广泛的视野和更高的时间分辨率上进行测量,但它们仅提供“自上而下”的视角,并且不会直接测量大气曲线。但是,将不同光谱通道中的图像与大气轮廓重叠的测量结合在一起,可以推断雷达轨道以外的垂直轮廓。Barker等。[3,4]通过强度像素匹配,开发了一种将地球保健曲线扩展到3D的算法。最近的工作[5,6,7]使用了基于ML的方法(例如U-NET,CGAN,线性回归,随机森林,XGBoost),以从“自上而下”的测量中估算垂直云信息。特别是Brüning等人。[5]从MeteoSat第二代(MSG)旋转增强的可见和红外成像仪(Seviri)的卫星图像进行了训练,并具有Cloudsat Cloud Cloud Radar(CPR)反射率,重建3D云结构。对于所有方法,模型训练需要数据源之间的精确空间和时间对齐。由于雷达卫星的立交桥有限(图1b),轮廓测量值少于可用的图像(为了进行比较,MSG/Seviri每年产生40 TB的图像数据,而CPR每年产生150 GB)。然后,我们使用匹配的图像profile对进行了3D云重建任务的预训练模型。自我监督学习(SSL)的最新进展(SSL)在大型未标记数据集的训练前模型中表现出了希望,但它们在云研究中的应用仍然不足。在这项工作中,我们将SSL方法(MAE,MAE,[8])和GeoSpatemance Authewawe AutoCododers(基于Satmae,[9])应用于2010年的多光谱MSG/SEVIRI数据。我们的结果表明,预训练始终提高此任务的性能,尤其是在热带对流带等复杂地区。具有地理空间意识的预训练模型(即时间和坐标编码),尤其是胜过随机初始化的网络和更简单的U-NET体系结构,从而改善了重建结果。该代码将在接受后提供。
Dieleman等。 (2022)。 分类数据的连续扩散。 Gulrajani&Hashimoto(2024)。 基于可能性的扩散语言模型。Dieleman等。(2022)。分类数据的连续扩散。Gulrajani&Hashimoto(2024)。基于可能性的扩散语言模型。
摘要。与视觉信号相比,放置在人体四肢上的惯性测量单元(IMU)可以捕获准确的运动信号,同时对照明变化和遮挡具有鲁棒性。尽管这些角色 - 在帮助以以上为中心的行动识别方面是有价值的,但IMU的潜力仍然不足。在这项工作中,我们提出了一种新颖的动作识别方法,该方法将来自人体磨损的IMU的运动数据与以自我为中心的视频相结合。由于标记的多模式数据的稀缺性,我们设计了一种基于MAE的自我监管预处理方法,通过对视觉和运动信号之间的自然相关性进行建模,从而获得了强大的多模式表示。为了建模整个体内的多个IMU设备的复合关系,我们利用了多个IMU设备中的协作动力学,并建议将人类关节的相对运动特征置入图形结构中。实验表明我们的方法可以在多个公共数据集上实现最新性能。在更具挑战性的场景中,我们的基于MAE的预培训和基于图的IMU建模的有效性得到了进一步的验证,包括部分缺少IMU设备和视频质量损坏,从而促进现实世界中更灵活的用法。
摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。
摘要。DNA测序数据的指数增长需要用于新颖的空间算法以进行压缩和搜索。状态的方法通常使用𝑘-Merization进行数据令牌化,但有效地表示和查询𝑘-MER集仍然是一个重要的生物敏化挑战。我们最近的工作介绍了掩盖超弦的概念,该概念紧凑地表示𝑘 -mer集,而无需依赖常见的结构假设。但是,蒙版SuperSrins在设定操作和会员查询中的适用性仍在打开。在这里,我们开发了𝑓屏蔽的SuperString框架,该框架集成了删除功能𝑓,从而通过串联启用有效的𝑘 -MER设置操作。结合了FM索引的量身定制版本,该框架为𝑘mer集提供了多功能,紧凑的数据结构。我们证明了它在FMSI程序中的有效性,与领先的单个𝑘-Mer-mer-set索引方法(如SSHASH和SBWT)相比,在细菌泛基因组上进行评估时,该程序将空间效率提高1.4至4.5。总的来说,我们的工作突出了𝑓屏蔽的超串将其作为用于𝑘mer集的多功能基本数据类型的潜力。
摘要 - 在这项工作中,我们提出了一种破坏性节俭的激光雷达感知数据流,该数据流产生而不是感知环境的一部分,这些部分是基于对环境的广泛培训,或者对整体预测准确性的影响有限的。因此,所提出的方法将传感能量与训练数据进行交易,以获取低功率机器人和自动导航,以便用传感器省将,从而在一次电池充电时延长了其寿命。我们提出的为此目的提出的生成预训练策略称为径向掩盖的自动编码(R-MAE),也可以在典型的激光雷达系统中很容易实施,通过选择性激活和控制在现场操作过程中随机生成的角区域的激光功率。我们的广泛评估表明,使用R-MAE进行预训练可以重点关注数据的径向段,从而比常规程序更有效地限制了空间关系和对象之间的距离。因此,所提出的方法不仅降低了传感能量,而且还提高了预测准确性。例如,我们对Waymo,Nuscenes和Kitti数据集进行了广泛的评估表明,该方法在跨数据集的检测任务的平均精度提高了5%,并且从Waymo和Nuscenes转移到Kitti的检测任务的平均精度提高了4%。在3D对象检测中,它在KITTI数据集中的中等难度水平下,在AP中最多可增强小对象检测。即使使用90%的径向掩蔽,它在Waymo数据集中所有对象类中的MAP/MAPH中都超过了基线模型。此外,我们的方法在Nuscenes数据集上分别获得了MAP和NDS的3.17%和2.31%的提高,这表明了其在单个和融合的LIDAR相机模态方面的有效性。代码可在https://github.com/sinatayebati/radial Mae上公开获取。索引项 - lidar预训练,掩盖自动编码器,超有效的3D传感,边缘自治。
投资组合管理(PM)是一项基本的金融贸易任务,它探讨了首都最佳定期重新分配到不同股票中以追求长期利润。强化学习(RL)最近显示了通过与金融市场互动来培训PM的盈利代理的潜力。但是,现有工作主要集中在固定股票上,这与投资者的实际需求不一致。具体来说,不同投资者的目标股票库差异很大,因为他们在市场国家和个别投资者上的差异可能会暂时调整他们希望进行交易的股票(例如,增加了一个受欢迎的股票),这会导致可自定义的股票库(CSP)。现有的RL方法可以重新验证RL代理,即使库存库发生了很小的变化,这会导致高计算成本和不稳定的性能。为了应对这一挑战,我们建议通过在全球股票库(GSP)中的一次性培训(GSP)中的一次射击培训,这是一个带有可掩盖股票代表的强化学习框架。具体来说,我们首先引入一种机制来掩盖目标池外部股票的表示。第二,我们通过自我监督的掩盖和重建过程学习有意义的股票表示。第三,重新加权的机械旨在使投资组合集中于有利的股票,并忽略了目标池外的股票。代码可在Pytorch 1中找到。通过对美国股票市场的8个子集库存库进行的实验实验,我们证明,在6个受欢迎的金融指标方面,Eartor的表现明显胜过14个州的总体基线,利润超过40%。
