摘要 — 变分量子算法 (VQA) 依赖于参数化单元电路针对目标函数的迭代优化。由于量子机器噪声大且资源昂贵,因此必须适当选择 VQA 的假设,并使其初始参数尽可能接近最优值,因为这将改善并加速算法在量子设备上执行的精确收敛。这项工作通过提出 CAFQA(一种用于量子精度的 Clifford 假设)来解决寻找初始假设参数的问题。CAFQA 假设是一种仅使用 Clifford 门构建的硬件高效电路。在此假设中,通过经典模拟在 Clifford 参数空间中进行有效搜索来选择可调门的初始参数,从而产生合适的稳定器状态。结果表明,产生的稳定器状态始终等于或优于传统的经典初始化方法(例如 Hartree-Fock),即找到合适的计算基态,并且通常在量子设备上执行和探索之前就产生高精度估计。此外,该技术适用于经典计算,因为 a) 仅 Clifford 量子电路可以在多项式时间内进行经典精确模拟,以及 b) 离散 Clifford 空间虽然量子比特数量呈指数级增长,但可以通过贝叶斯优化进行有效搜索。对于变分量子特征求解器 (VQE) 任务(即估计多达 20 个量子比特的分子系统的基态能量),CAFQA 的 Clifford Ansatz 实现了接近 99% 的平均准确度,并且能够恢复高达 99.99% 的 Hartree-Fock 初始化分子相关能量。值得注意的是,该方法的可扩展性允许对具有挑战性的铬二聚体 (Cr 2 ) 进行初步的基态能量估计,其精度高于 Hartree-Fock 所达到的精度。CAFQA 还在优化任务上进行了评估,特别是高达 18 个量子比特的 MAXCUT 问题。借助 CAFQA 的高精度初始化,VQA 的收敛速度加快了 2.5 倍。总之,这项工作表明稳定器状态是变分算法的高精度假设初始化。此外,它突出了量子启发式经典技术作为 NISQ 时代及以后 VQA 的替代方案和支持方法的潜力。
抽象的2D图像理解是计算机视觉中的一个复杂问题,但它是提供人级场景理解的关键。它比识别图像中的对象更进一步,而是尝试理解场景。解决此问题的解决方案构成了一系列任务的基础,包括图像字幕,视觉问题答案(VQA)和图像检索。图提供了一种自然的方式来表示图像中对象之间的关系布置,因此,近年来,图形神经网络(GNN)已成为许多2D图像理解管道的标准组成部分,成为核心体系结构组件,尤其是在VQA任务中。在本调查中,我们回顾了这种快速发展的场,并提供了2D图像理解方法中使用的图形类型的分类法,该域中使用的GNN模型的全面列表以及未来潜在发展的路线图。据我们所知,这是第一个综合调查,涵盖图像字幕,视觉问题的答案和图像检索技术,其重点是将GNN用作其架构的主要部分。
我们考虑为作用在量子电路上的通用量子噪声设计合适的量子误差校正程序(QEC)程序的问题。通常,没有分析通用程序来获得编码和校正统一门,如果噪声未知并且必须重建噪声,问题甚至更难。现有过程依赖于变分的量子算法(VQA),并且由于成本函数的梯度的大小随量子数而衰减,因此很难训练。我们使用基于量子1(QW 1)的量子Wasserstein距离的成本函数来解决此问题。在量子信息处理中通常采用的其他量子距离方面,QW 1缺少单一不变性属性,这使其成为避免被困在本地最小值中的合适工具。专注于一个简单的噪声模型,该模型已知确切的QEC解决方案,并且可以用作理论基准,我们进行了一系列数值测试,这些测试表明如何通过QW 1指导VQA搜索,确实可以显着提高成功培训的可能性,并在使用恢复状态的情况下,以实现的态度来实现会议的方法。
医学视觉语言模型 (VLM) 结合了计算机视觉 (CV) 和自然语言处理 (NLP) 来分析视觉和文本医学数据。本文回顾了医疗保健专用 VLM 的最新进展,重点介绍了专为医疗报告生成和视觉问答 (VQA) 设计的模型。我们提供了 NLP 和 CV 的背景知识,解释了如何将这两个领域的技术集成到 VLM 中以实现从多模态数据中学习。我们讨论的关键领域包括医学视觉语言数据集的探索、最近值得关注的医学 VLM 中采用的架构和预训练策略的深入分析,以及对评估 VLM 在医疗报告生成和 VQA 中的表现的评估指标的全面讨论。我们还强调了当前的挑战并提出了未来的方向,包括提高临床有效性和解决患者隐私问题。总体而言,我们的综述总结了开发 VLM 以利用多模态医疗数据来改进医疗保健应用的最新进展。
▰ We introduce a new collection of datasets, K2Q , that converts five existing KIE datasets into rich and diverse prompt-response datasets using dataset-specific templates ▰ We show that K2Q exhibits closer characteristics to human-made VQA datasets than simple templates ▰ We provide zero-shot and fine-tuned benchmarks for K2Q across seven models ▰ We conduct an in-depth analysis of the数据集特异性模板对模型性能和对简单模板的基础的影响
图像字幕使用视觉语言预先训练的模型(VLP)(例如Blip)从图像中生成描述性句子,该模型已得到很大改善。然而,当前的方法缺乏图像中描述的文化元素的详细描述标题,例如亚洲文化群体的人们穿着的传统服装。在本文中,我们提出了一个新的框架,具有文化意识的图像字幕(CIC),该框架生成字幕并描述从代表文化的图像中的文化视觉元素中提取的文化元素。受到通过适当提示来构建视觉模式和大语言模型(LLM)的方法的启发,我们的框架(1)基于图像中的文化类别产生问题,(2)提取文化的视觉问题(VQA)中的文化vi sual元素(VQA),并使用生成的问题以及(3)具有文化文化 - 瓦拉避难所使用llms的文化范围。我们对来自4个不同文化群体的45名参与者进行的人类评估对相应的文化有很高的了解,这表明,与基于VLP的图像字幕基线相比,我们提出的框架会产生更文化的描述性标题。可以在https://shane3606.github上找到。io/cic。
变分量子算法 (VQA) 代表了一种利用当前量子计算基础设施的有前途的方法。VQA 基于通过经典算法在闭环中优化的参数化量子电路。这种混合方法减少了量子处理单元的负载,但代价是经典优化会产生平坦的能量景观。现有的优化技术,包括虚时间传播、自然梯度或基于动量的方法,都是有前途的候选方法,但要么给量子设备带来沉重的负担,要么经常遭受收敛速度缓慢的困扰。在这项工作中,我们提出了量子 Broyden 自适应自然梯度 (qBang) 方法,这是一种新颖的优化器,旨在提炼现有方法的最佳方面。通过采用 Broyden 方法近似 Fisher 信息矩阵中的更新并将其与基于动量的算法相结合,qBang 降低了量子资源需求,同时比资源要求更高的替代方案表现更好。荒原、量子化学和最大切割问题的基准测试表明,在以下情况下,其整体性能稳定,并且比现有技术有明显改进
视觉问题回答(VQA)是一项具有挑战性的任务,需要通过关系推理对图像和问题进行跨模式理解,从而导致正确答案。为了弥合这两种方式之间的语义差距,以前的作品着重于所有可能对的单词区域对齐,而无需更多地关注相应的单词和对象。同样处理所有对,而无需考虑关系一致性,这是模型的性能。在本文中,为了对齐关系对并整合VQA系统的解释性,我们提出了一个跨模式的关系构建网络(CRRN),以掩盖不一致的注意力图,并突出相应单词对的全部潜在比对。具体来说,我们提出了两个相关性掩码,用于模式间和模式内突出显示,从而推断出图像中句子或区域中越重要的单词。可以通过掩盖未对齐的关系来增强一致对的关注相互关系。然后,我们提出了两个新颖的损失L CMAM和L SMAM,并具有明确的超级视觉,以捕获视觉和语言之间的细粒度相互作用。我们进行了彻底的实验来证明有效性并实现了GQA基准的竞争性绩效,以达到61.74%。
变分量子算法(VQA)因其错误恢复能力强和对量子资源需求高度灵活而具有优势,广泛应用于嘈杂的中尺度量子时代。由于 VQA 的性能高度依赖于参数化量子电路的结构,因此值得提出量子架构搜索(QAS)算法来自动搜索高性能电路。然而,现有的 QAS 方法非常耗时,需要电路训练来评估电路性能。本研究首创了免训练 QAS,利用两个免训练代理对量子电路进行排序,代替传统 QAS 中昂贵的电路训练。考虑到基于路径和基于表达力的代理的精度和计算开销,我们设计了一个两阶段渐进式免训练 QAS(TF-QAS)。首先,使用有向无环图 (DAG) 表示电路,并设计基于 DAG 中路径数量的零成本代理来过滤掉大量没有前途的电路。随后,使用基于表达能力的代理来精细地反映电路性能,从剩余的候选电路中识别出高性能电路。这些代理无需电路训练即可评估电路性能,与当前基于训练的 QAS 方法相比,计算成本显著降低。在三个 VQE 任务上的模拟表明,与最先进的 QAS 相比,TF-QAS 实现了采样效率的大幅提高,提高了 5 到 57 倍,同时速度也提高了 6 到 17 倍。
视觉丰富文档理解 (VRDU) 领域旨在解决多模态领域中大量已得到充分研究的 NLP 任务。目前已有多个数据集用于研究 VRDU 的特定任务,例如文档分类 (DC)、关键实体提取 (KEE)、实体链接、视觉问答 (VQA) 等。这些数据集涵盖带有稀疏注释的文档(如发票和收据),因此它们支持一到两个相关任务(例如实体提取和实体链接)。遗憾的是,只关注单一特定类型的文档或任务并不能代表文档在实际中通常需要如何处理 — — 在实际中,文档的风格和要求会多种多样。在本文中,我们介绍了 BuDDIE(用于信息提取的业务文档数据集),1 这是第一个包含 1,665 份真实业务文档的多任务数据集,其中包含丰富而密集的 DC、KEE 和 VQA 注释。我们的数据集由美国州政府网站上的公开业务实体文件组成。这些文件的结构化和样式和布局因州和类型(例如表格、证书、报告等)而异。我们为 BuDDIE 提供了数据多样性和质量指标,以及每个任务的一系列基线。我们的基线涵盖了 VRDU 的传统文本、多模态和大型语言模型方法。