我们引入了神经状态机,力求弥合人工智能的神经和符号视图之间的差距,并整合它们互补的优势以完成视觉推理任务。给定一张图像,我们首先预测一个表示其底层语义并作为结构化世界模型的概率图。然后,我们对图进行顺序推理,迭代遍历其节点以回答给定的问题或得出新的推论。与大多数旨在与原始感官数据紧密交互的神经架构不同,我们的模型在抽象的潜在空间中运行,通过将视觉和语言模态转换为基于语义概念的表示,从而实现增强的透明度和模块化。我们在 VQA-CP 和 GQA 上评估了我们的模型,这两个最近的 VQA 数据集涉及组合性、多步推理和多样化的推理技能,在这两种情况下都取得了最先进的结果。我们进行了进一步的实验,说明了该模型在多个维度上的强大泛化能力,包括概念的新组合、答案分布的变化和看不见的语言结构,证明了我们方法的质量和有效性。
摘要。视觉语言预处理(VLP)模型已在众多计算机视觉应用中被证明。在本文中,我们基于图像扫描和电子健康记录中的文本介绍,为医疗领域开发VLP模型,以促进计算机辅助诊断(CAD)。为了实现这一目标,我们介绍了MedBlip,这是一种轻巧的CAD系统,该系统启动了从架子冻结的预训练的图像编码器和大型语言模型中启动VLP。我们合并了一个MEDQFormer模块,以弥合3D医学图像和2D预训练的图像编码器和语言模型之间的差距。为了评估MEDBLIP的有效性,我们从五个公共阿尔茨海默氏病(AD)数据集中收集了30,000多个图像量:ADNI,NACC,OASIS,OASIS,AIBL和MIRIAD。在这个大规模的广告集中,我们的模型在健康,轻度认知障碍(MCI)和AD主题的零摄像分类中表现出了令人印象深刻的表现,并且还显示了其在M3D-VQA-AD数据集中的医学视觉问题An-Swering(VQA)中的能力。代码和预训练模型可在https://github.com/qybc/medblip上找到。
摘要。尽管大型视力语言模式(LVLM)在各种任务上取得了显着的成功,但由于训练数据而继承的对知识偏见的敏感性阻碍了它们概括为新场景并限制其现实世界中适用性的能力。为了解决这一挑战,我们提出了反事实偏见推理(COBRA)数据集,该数据集通过提供新颖的VQA示例来解决知识偏见,以评估和减轻LVLMS中的偏见。这些例子通过提供编辑的知识图和图像内容来鼓励反事实思考,并详细介绍了理性过程的注释,以促进对示例的全面理解。基于数据集,我们介绍了一系列反事实思想(COCT)方法,该方法学习了偏见的推理过程,并提供了在上下文中的示例,以证明现有推理如何推广到反事实场景。这使LVLMS能够逐步阐明原因,而不是依靠有偏见的知识,导致更具概括性的解决方案。我们广泛的评估表明,CoCT在需要知识偏见下需要推理的任务上的现有方法优于现有方法。我们的工作可从https://github.com/superjohnzhang/cobra获得。
然而,在任意低温下制备给定哈密顿量的吉布斯态并非易事 39,人们提出了各种方法,包括经典方法和量子方法 40–43,以在某些特定条件下制备吉布斯态。其中一些技术包括基于量子拒绝采样 44 、动力学模拟 45,46 和降维 47 的算法,但实现这些方法的量子资源开销成本非常高,因此不适合在近期的量子设备上执行。为了在 NISQ 设备中找到量子算法的应用,底层量子电路应该是浅的,具有较低的电路深度和较少的量子比特数。变分量子算法 (VQA) 48 就是这样一类遵循基于变分原理的启发式方法的混合量子经典算法,由于它们在具有浅量子电路的 NISQ 设备上实现,近年来 49–54 非常流行。为了使用 VQA 在 NISQ 设备上准备量子吉布斯态,已经提出了几种方法。55–60 在这项工作中,我们采用了 Wang 等人的方法。39 其中,在量子电路上准备吉布斯态的损失函数涉及熵的泰勒级数截断,并且已被证明可以为给定的汉密尔顿量准备保真度超过 99% 的吉布斯态。系统的物理汉密尔顿量是未知的,实际上在此协议中是不必要的。人们只能访问任意一组厄米算子的期望值。原则上,使用形式主义可以生成与这种任意甚至不完整的平均测量集一致的最小偏差量子态,但在本报告中,我们使用 IC 集进行测试和验证,希望能够提供用于采样的未知纯量子态的近乎精确的重建。这是通过构建一个厄米矩阵 H 来实现的,该矩阵由拉格朗日乘数参数化。后者充当吉布斯态的代理汉密尔顿量,吉布斯态代表量子系统状态的断层扫描重建。本文提出的混合量子-经典断层扫描协议涉及浅参数化量子电路的应用,可在当前到近期的量子硬件上进行实验实现。这本身就比某些其他断层扫描协议 11-14 更有优势,因为经过优化,状态可以直接在量子
WWTP Wastewater Treatment Plant EU European Union R&D Research and Development UN United Nations CPPCSP Cleaner Production Practices in Certain Sectors Project RDA Regional Development Administrations SBRD Sector Based Reference Documents GDCP General Directorate of Crop Production DGFA Directorate General of Fisheries and Aquaculture GIS Geographic Information System MLSS The Ministry of Labor and Social Security MEUCC The Ministry of Environment, Urbanization and Climate变更DMA测量区/孤立的子区域GDSHW国家液压工程总局生态经济合作组织IPPC IPPC综合污染预防和控制TPD培训和出版部FAO食品和农业组织联合国NRW NRW NRW非重新融合水局局长IS Hoverane Is Is Is Is Is Is Is Is Is Is Is Is Issex oikic o Issex o Issex oikic o Issex oikic o Issex o Issex oikic o Issex oikic o Issex oikic o Issex oikic o Issex Opage iS iS iS ISSEX oikic oikic oikic oikage i inise spa IPPCD综合污染预防和控制指令MCT文化和旅游蝙蝠最佳可用技术VQA职业资格授权机构NACE欧洲社区中经济活动的统计分类RBMP河流流域管理计划OECD经济合作与发展dcppaip dcppaip确定清洁剂生产的可能性,并适用于行业项目
与传统计算机 [1] 相比,量子计算 (QC) 在特定问题上具有显著的计算优势。尽管目前量子设备存在噪声和缺陷等局限性,但人们仍在做出巨大努力以实现量子优势。其中一个突出的关注领域是量子机器学习 (QML),它利用量子计算原理来增强机器学习任务。大多数 QML 算法依赖于量子-经典混合范式,该范式将计算任务分为两个部分:量子计算机处理受益于量子计算的部分,而传统计算机处理它们擅长的部分。变分量子算法 (VQA) [2] 构成了当前量子机器学习 (QML) 方法的基础。QML 已在各种机器学习任务中取得成功,包括分类 [3]–[6]、顺序学习 [7]、[8]、自然语言处理 [9]–[12] 和强化学习 [13]–[19]。在这些领域中,量子强化学习 (QRL) 是一个新兴领域,研究人员正在探索应用量子计算原理来提高强化学习代理的性能。本文介绍了 QRL 的概念和最新发展。
处理VAD的最常见方法是单级学习[1],它仅在训练正常数据上训练异常检测模型,即没有异常,执行不同的辅助任务,例如重建和预测。主要的假设是对正常数据训练,模型无法正确重建或预测包含异常的视频帧。但是,此类方法只有在相当简单的数据集上表现良好,在这些数据集上可以通过视觉外观或运动来定义异常,并且在异常事件中包含高级语义信息(远程轨迹,个体或对象之间的相互作用)的视频上失败。存在其他方法来处理VAD,例如弱监督[2]或少量学习方法[3]。此类方法在培训中使用了一些异常示例,这些示例有助于捕获更复杂的异常,需要了解高级语义信息[4,5]。最近,视觉语言模型[6,7]由于能够处理图像和文本的能力而获得了很多知名度。他们的应用程序包括视觉问答(VQA),图像字幕和文本对图像搜索。在VAD中使用此类模型的优点在于它们不仅检测到视频异常,而且提供了它们的描述,这有助于更好地理解和解释发生异常[8]。在这次实习中,我们将使用VAD方法来处理需要通过在培训中使用一些异常样本来处理需要高级语义信息的异常。除了异常检测任务外,我们还将通过利用VLM模型来解决视频异常理解的问题。
在扩大大型语言模型方面的最新进展表现出令人印象深刻的能力,可以在各种自然语言任务中进行几次学习。但是,一个关键的限制是,这些语言模型从根本上缺乏视觉感知的基础 - 扩展到现实世界任务所需的关键属性,例如在视觉问题上的答案和机器人技术中。虽然先前的作品在很大程度上通过预处理或微调将图像与文本联系在一起,但由于结合了策划的大量数据集和较大的计算负担,学习对齐方式通常是昂贵的。In order to resolve these limitations, we propose a simple yet effective approach called L anguage- Q uantized A uto E ncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language model denoisers ( e .g .bert)。我们的主要思想是通过使用验证的语言代码簿直接量化图像嵌入来编码图像作为文本令牌的序列。然后,我们将量化嵌入的蒙版版本送入BERT,以重建原始输入。这样做,LQAE学会了用相似的文本令牌表示相似的图像,从而在不使用对齐的文本图像对的情况下对齐这两种方式。我们向LQAE显示了学习文本对准图像令牌,这些图像令牌可以通过大型语言模型启用几示多式模式学习,在诸如图像分类和VQA等任务中的基线方法优于基线方法,同时需要1-10张图像 - text Pairs 1。
乳腺癌检测中的精度和及时性对于改善患者预后至关重要。传统的诊断方法主要依赖于单峰方法,但是医学数据分析的最新进展使得超越了传统成像技术以外的各种数据源。本评论认真研究了将组织病理学图像与基因组数据,临床记录和患者历史记录相结合的变革潜力,以提高多模式诊断技术的诊断准确性和全面性。它探讨了早期,中间和晚期融合方法,以及先进的深层多模式融合技术,包括编码器架构,基于注意力的机制和图形神经网络。提供了多模式任务的最新进步,例如视觉问题答案(VQA),报告生成,语义细分和跨模式检索,突出显示了生成AI和视觉语言模型的利用。此外,审查还深入研究了可解释的人工智能(XAI)在阐明复杂诊断算法的决策过程中的作用,强调了对透明性和可解释性的关键需求。通过展示解释性的重要性,我们演示了XAI方法(包括毕业,摇摆,石灰,可训练的注意力和图像字幕),增强诊断精度,增强临床医生的认识和促进患者的参与。该评论还讨论了最新的XAI发展,例如X-Vars,Legrad,Langxai,LVLM-Interpret和Ex-ILP,以证明它们在多模式乳腺癌检测中的潜在效用,同时识别关键的研究差距并提出未来的指导,以推进该文件。
近年来,在一类早期量子计算设备中,人们越来越兴趣和快速发展,共同称为嘈杂的中间量子量子(NISQ)设备[1]。NISQ设备本质上是缺乏完整量子误差校正的量子计算硬件。由于缺乏误差校正,在此类设备上可用的门口和总相干时间受到限制。这意味着NISQ设备仅限于可以使用短深度量子电路执行的应用程序,超出该电路不可靠。虽然NISQ设备无法执行通用量子计算,但人们普遍期望它们能够在近期[2,3]中提供比古典计算机相对于经典计算机提供的魔鬼计算优势。开发适合NISQ设备的算法的一种方法是考虑杂交量子古典算法[4]。这样的算法试图通过将一部分计算的一部分向经典计算机铺开来降低整体量子电路深度要求。在其中,一种称为变分量子算法(VQA)的算法可以说是设计NISQ算法的最广泛使用和有希望的策略之一。在VQAS中,使用NISQ硬件进行经典计算的成本函数C(θ),而经典优化策略则用于发现最佳参数θ∗,以最大程度地减少成本函数。此类策略已用于诸如发现汉密尔顿人[5、6]的近似本征态的应用中,重新编译了量子电路[7],并解决了线性代数问题[8-10]。作为一类量子算法,VQAS