研究兴趣我的研究兴趣在于计算机视觉和机器学习的交集。i最近在多模式生成模型的应用和基本限制上工作,包括多模态大语言模型(MLLM,VLM)和多模式嵌入模型(Clip,dinov2)。我对视频,视觉提示和3D理解特别感兴趣。
生成模型中的进步引发了人们对产生图像的重大兴趣,同时遵守特定的结构指南。场景图到图像生成就是生成与给定场景图一致的图像的一项任务。然而,视觉场景的复杂性在基于场景图内的指定关系准确对齐的观察中提出了一个挑战。现有方法通过先预测场景布局并使用对抗性训练从这些布局生成图像来处理此任务。在这项工作中,我们介绍了一种新颖的方法来从场景图中产生iM,从而消除了预测中间布局的需求。我们利用预先训练的文本对图像扩散模型和剪辑指导来将图形知识转化为图像。向此,我们首先使用基于GAN的培训将图形编码器与相应图像的剪辑特征与相应图像的剪辑特征对齐。此外,我们将图形特征与给定场景图中存在的对象标签的剪辑嵌入融合在一起,以创建一个一致的剪辑引导性调节信号。在条件输入中,对象嵌入提供了图像的粗糙结构,图形特征提供了基于对象之间关系的结构对齐。fi-Nelly,我们对图一致的调节信号和夹子对准损失的图一致的调节信号进行了预训练的扩散模型。详细的实验表明,我们的方法在可可粘合和视觉基因组数据集的标准基准上的现有方法优于现有方法。我们的代码和重现结果的说明可以在https://anonymon.4open.science/r/gandiffuclip-d9e8中找到。
PCB connector, nominal cross section: 2.5 mm 2 , color: light grey, nominal current: 12 A, rated voltage (III/2): 320 V, contact surface: Tin, contact connection type: Socket, number of potentials: 3, number of rows: 1, number of positions: 3, number of connections: 3, product range: FKCT 2,5/..-ST, pitch: 5 mm, connection method: Push-in spring connection,导体/PCB连接方向:0°,锁定夹: - 锁定夹,插件系统:梳子MSTB 2,5,锁定:无,安装:无,安装:无包装类型:包装纸板
科学学士学位 - 应用化学 - 生物科学 - 商业创新的数字技术(对数字技术感兴趣并具有数字技术技能,并能够在业务中应用数字技术;在目的声明中说明) - 多媒体技术和动画(在英语,动画中具有自我研究的vdo剪辑,以及应用多媒体技术和动画的理由VDO剪辑不得超过3分钟,并将其上传到YouTube平台。然后,申请人将视频URL提供到在线应用系统中) - 创新食品科学与技术 - 农业食品物流 - 美容科学 - 美容技术 - 体育与健康科学
预训练的视觉语言(V-L)模型(例如剪辑)表现出了出色的泛化能力,可以在下游任务下进行。但是,它们对选择输入文本提示很敏感,需要仔细选择及时模板才能表现良好。受到自然语言处理(NLP)文献的启发,最近的剪辑适应方法学习提示是作为下流任务的文本输入的文本输入。我们注意到,在剪辑的单个分支(语言或视觉)中使用提示将代表改编为亚最佳选择,因为它不允许在下游任务上动态调整两个表示空间。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(枫),以证明视觉和语言代表之间的一致性。我们的设计促进了视觉语言提示之间的牢固耦合,以确保相互协同作用并宣扬学习独立的单模式解决方案。,我们在不同的早期阶段学习了单独的提示,以逐步建模阶段的特征关系,以允许丰富的上下文学习。我们评估了方法对新的类别,新的目标数据集和看不见的主要变化的三个代表性任务的有效性。与最先进的方法合作社相比,枫木表现出良好的性能,并且在新型类别上获得了3.45%的绝对增益,而总体谐音均值为2.72%,平均有11种不同的图像识别数据集。我们的代码和预培训模型可在https://github.com/muzairkhattak/multimodal- strick-learning上找到。
最新的性能。虽然鉴定的视觉模型(例如对比语言图像预训练(剪辑))通过在共同空间中学习视觉语言概念来实现有希望的零射击性能,但它们之间的自然层次结构仍然没有探索。在这项工作中,我们提出了Poinclip:基于庞加利的几何形状模型,该模型研究了两者之间的层次关系,以学习联合文本图像表示。我们将Poinclip的性能与夹模型的性能进行比较,以进行零拍图像分类和检索任务,以证明所提出的方法的功效。