视觉问题回答(VQA)是一项重要的视觉语言任务,非常适用于各种现实世界中的情况。然而,它提出了重大挑战,可以理解自然语言的用户查询,从图像或视频中检索信息,以及提供自然语言的准确响应。在大型语言模型(LLMS)的帮助下,出现了许多解决方案。但是,其中许多解决方案都取决于多模式模型,并且需要进行微调的大量计算成本。因此,在限制内建立VQA系统提出了一个明显的挑战。为了解决此问题,我们提出了利用文本信息作为渠道的方法,以链接视觉和文本功能,从而无需端到端培训就可以零射击VQA任务。我们的模型探讨了两种不同的方法:1)使用检测模型和字幕模型在图像和文本之间建立连接。在此阶段,我们降低了利用文本表示的可行性,而不是向量连接两个域,从而识别减轻幻觉问题的方法。2)将IMG2LLM模型和随机字幕模型组合在一起,以向模型提供LOCAL和一般信息并评估其性能。此外,我们还引入了一个用于VQA评估的新指标,结合了语义理解,而不是严格匹配,以确保评估过程中的公平性。代码可在https://github.com/nattapolchoo/visual-question-andwering-using-llm上找到。
摘要 —变分量子算法 (VQA) 访问集中式数据来训练模型,使用分布式计算可以显著改善训练开销;然而,数据对隐私敏感。在本文中,我们提出了从分散数据中进行通信高效的 VQA 学习,即所谓的量子联邦学习 (QFL)。受经典联邦学习算法的启发,我们通过聚合本地计算的更新来共享模型参数,从而改善数据隐私。在这里,为了在参数环境中找到近似最优值,我们开发了传统 VQA 的扩展。最后,我们在变分量子张量网络分类器、Ising 模型的近似量子优化和分子氢的变分量子特征求解器中部署了 TensorFlowQuantum 处理器。我们的算法从分散数据中展示了模型的准确性,在近期处理器上具有更高的性能。重要的是,QFL 可能会激发安全量子机器学习领域的新研究。
变分量子算法 (VQA) 可能是在嘈杂的中型量子 (NISQ) 计算机上实现量子优势的一条途径。一个自然的问题是 NISQ 设备上的噪声是否会对 VQA 性能造成根本限制。我们严格证明了嘈杂的 VQA 的一个严重限制,即噪声导致训练景观出现贫瘠高原(即梯度消失)。具体而言,对于考虑的局部泡利噪声,我们证明如果假设的深度随 n 线性增长,则梯度会在量子比特数 n 中呈指数消失。这些噪声引起的贫瘠高原 (NIBP) 在概念上不同于无噪声贫瘠高原,后者与随机参数初始化有关。我们的结果是为通用假设制定的,其中包括量子交替算子假设和酉耦合簇假设等特殊情况。对于前者,我们的数值启发式方法证明了现实硬件噪声模型的 NIBP 现象。
变异量子算法(VQA)已成为一种有希望的近期技术,可以探索嘈杂的中间尺度量子(NISQ)设备上实用的量子优势。然而,由于反向传播的不可能和大量测量成本引起的参数训练过程效率低下,对VQA的大规模开发构成了巨大挑战。在这里,我们提出了一个参数并行分布的变分量子算法(PPD-VQA),以通过使用多个量子处理器进行参数并行训练来加速训练过程。为了在现实的噪声场景中维持PPD-VQA的高性能,提出了一种替代训练策略来减轻多个量子处理器之间噪声差异引起的加速度衰减,这是不可避免的共同的分布式VQA的常见问题。此外,还采用了梯度压缩来克服潜在的通信瓶颈。所达到的结果表明,PPD-VQA可以提供一个实用的解决方案,以协调多个量子处理器,以将多个量子处理器与大规模实词应用程序进行协调。
用于量子动力学模拟的量子算法传统上基于实现时间演化算子的 Trotter 近似。这种方法通常依赖于深度电路,因此受到可用噪声和近期量子硬件的重大限制的阻碍。另一方面,变分量子算法 (VQA) 已成为不可或缺的替代方案,可在当今硬件上进行小规模模拟。然而,尽管最近为量子动力学开发了 VQA,但尚未对其效率和可扩展性进行详细评估。为了填补这一空白,我们应用了基于 McLachlan 原理的 VQA 来模拟自旋玻色子模型在不同水平的实际硬件噪声以及不同物理状态下的动力学,并讨论了算法的准确性和随系统大小而变化的缩放行为。我们观察到变分方法与一般的、物理驱动的波函数假设相结合使用时具有良好的性能,并将其与传统的一阶 Trotter 演化进行了比较。最后,基于此,我们对经典难处理系统的模拟进行了扩展预测。我们表明,尽管变分法明显降低了量子门成本,但其当前实现不太可能为时间相关问题的解决带来量子优势。
图片:https://visualqa.org/ & Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Lawrence Zitnick, C., & Parikh, D. (2015)。Vqa:视觉问答。在 IEEE 国际计算机视觉会议论文集(第2425-2433 页)。
摘要 — 量子计算是物理学、工程学和计算机科学之间多学科交叉领域的一个新兴领域,有可能对计算智能 (CI) 产生巨大影响。本文旨在向 CI 社区介绍量子近似优化方法,因为它与解决组合问题直接相关。我们介绍了量子计算和变分量子算法 (VQA)。VQA 是一种有效的方法,可以在近期在具有不太可靠量子位和早期纠错的嘈杂中型量子 (NISQ) 设备上实现量子解决方案。然后,我们解释了 Farhi 等人的量子近似优化算法(Farhi 的 QAOA,以避免混淆)。Hadfield 等人将此 VQA 推广到量子交替算子 ansatz (QAOA),这是一种受自然启发(特别是绝热)的量子元启发式算法,用于近似解决基于门的量子计算机上的组合优化问题。我们讨论了 QAOA 与相关领域的联系,例如计算学习理论和遗传算法,讨论了当前技术和有关混合量子-经典智能系统的已知结果。我们给出了 QAOA 的构建示意图,并讨论了如何使用 CI 技术来改进 QAOA。最后,我们给出了众所周知的最大割、最大二分和旅行商问题的 QAOA 实现,这些可以作为有兴趣使用 QAOA 的 CI 从业者的模板。
src_seq = getContactquences()[0] obs = getObbox = trassebbox(src_seq .obj_bbox,src_seq .init_frame)如果不是vqa(“ draweer open吗?,obs .rgb,boool,draweer_bbox):targ_seq = TranscerContactSequence(src_seq)for targ_seq .eeq .eeq .eeq .eeq .eeq .eeq .eeq .eq.configs:adpadGripperWidth(ee_cfg .width)moveToopse(ee_cfg.width)moveToopse(ee_cfg .pose .pose)Moveeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeehome()
量子计算利用量子力学现象(如叠加和纠缠),能够以更高的精度、更省时省能的方式解决各种问题。然而,量子算法依赖于多个预处理和后处理任务,这些任务通常需要在传统硬件上执行,例如数据准备、结果分析和参数优化。由于目前可用的噪声中型量子 (NISQ) 设备容易出错,当今大多数量子算法都被设计为所谓的变分量子算法 (VQA) [2]。VQA 交替在量子设备上执行参数化量子电路和通过评估执行结果的质量来经典优化量子电路参数。此外,量子设备不适合许多传统任务,例如数据持久化或可视化,这使得它们成为补充传统计算机的特殊协处理器。因此,量子应用本质上是混合的,必须从经典和量子的角度以及它们的集成的角度进行设计[4]。
视觉提问(VQA)是用户体验的关键,尤其是在改善视觉语言模型(VLMS)的概括能力之后。但在实际设置中使用标准化框架评估应用程序要求的VLM仍然具有挑战性。本文旨在使用端到端框架解决该问题。我们提出VQA360 - 一种源自估计的VQA基准测试的新型数据集,该数据集用任务类型,应用程序域和知识类型注释,以进行全面评估。我们还引入了Goeval,这是一种使用GPT-4O开发的多模式评估度量,与Human判断相关系数为56.71%。我们使用状态VLMS的实验表明,没有任何单个模型都普遍擅长,因此,将正确的选择成为关键的设计决策。专有模型(例如Gemini-1.5-Pro和GPT-4O-Mini)通常优于其他模型,但是诸如InternVL-2-8B和COGVLM-2-LALAMA-3-19B之类的开源模型也表现出竞争优势,同时提供了其他优势。我们的框架工作也可以扩展到其他任务1。