提出了视觉问题回答(VQA)任务8年后,准确性仍然是自动评估的主要指标。VQA准确性在IID评估设置中一直有效。但是,我们的社区正在转向开放式生成模型和OOD评估。在这个新的范式中,现有的VQA准确度度量过于严格,低估了VQA系统的性能。因此,有必要开发更强大的自动VQA指标,以作为人类判断的代理。在这项工作中,我们建议利用教学调节的大语言模型(LLMS)的文化学习能力来构建更好的VQA指标。我们将VQA评估作为答案评估任务,其中指示LLM给出一组参考答案的候选人答案的准确性。与几种VQA模型和基准的现有指标相比,我们证明了所提出的指标与人类判断的更好相关。我们希望广泛采用我们的指标将有助于更好地估计VQA任务的研究进度。我们计划发布评估法规并收集人类判断。
在3D视觉问题回答(3D VQA)中,完全注释的数据的稀缺性和有限的视觉内容多样性阻碍了对新型场景和3D概念的概括(例如,在Scanqa和SQA数据集中仅利用了大约800个场景)。当前的方法通过2D信息来制作Resort补充3D。但是,这些方法面临挑战:他们要么使用自上而下的2D视图,这些视图引发了过于复杂的,有时甚至是问题,要么依赖于2D VLMS的全球汇总场景/图像级表示,从而失去了良好的视觉效果 - 语言相关性。为了克服这些局限性,我们的方法采用了问题条件2D查看选择程序,从而指出了至关重要的视觉线索的语义相关的2D输入。然后,我们通过两支分支变压器结构将此2D知识集成到3D-VQA系统中。这种结构具有双转化器的特征,将2D和3D模态和结合方式结合在一起,并结合了模态之间的细粒度相关性,从而使它们互相增强。整合了上面提出的机制,我们提出了BridgeQa,该机制为3D-VQA的多模式变压器架构提供了新的视角。实验验证了BridgeQA可以在3D-VQA数据集上实现最新技术,并显着超过现有的解决方案。代码可在https:// github上找到。com/matthewdm0816/bridgeqa。
人工智能 (AI) 领域已经发展到能够提供内容提供商、网络运营商、终端供应商、系统设计人员等数十年来一直寻求的那种自动视频质量分析 (VQA) 的地步。它采用整体、端到端的视图,并支持各种测试场景,例如测试原型手机或流媒体播放器,以分析其在来自多个服务提供商的多种网络技术上提供的视频 QoE。另一个示例是使用 AI VQA 来确保新的终端软件版本或压缩技术不会破坏 QoE。无论在何处引入工件,AI VQA 都能够量化 QoE 影响。
在当前嘈杂的中等规模量子 (NISQ) 体制下,人们设计了各种算法来取得实用的量子优势。这些 NISQ 算法大多数都是变分的,即基于变分定理。变分量子算法 (VQA) 17,18 可以通过将不需要量子属性的计算卸载到传统计算机上来显著减少量子电路深度。这个想法自然而然地源于尽可能少地使用量子计算机。VQA 是启发式的,依赖于一个按照某种方案进行优化的拟定电路。VQA 的一个相当大的缺点是这个优化过程需要许多测量,这个因素可能会限制或消除获得实用量子优势的机会。14 尽管存在这个缺点,但由于与当前硬件限制有关的原因,VQA 是迄今为止研究最多的量子算法类型。变分量子特征值求解器 (VQE) 19,20 是最著名的 VQA。然而,其他方法,如变分量子虚时间演化 (VarQITE),也是有竞争力的替代方案。21
变分量子算法 (VQA) 是经典神经网络 (NN) 的量子模拟。VQA 由参数化量子电路 (PQC) 组成,该电路由多层假设(更简单的 PQC,与 NN 层类似)组成,这些假设仅在参数选择上有所不同。先前的研究已将交替分层假设确定为近期量子计算中潜在的新标准假设。事实上,浅层交替分层 VQA 易于实现,并且已被证明既可训练又富有表现力。在这项工作中,我们引入了一种训练算法,可指数级降低此类 VQA 的训练成本。此外,我们的算法使用量子输入数据的经典阴影,因此可以在具有严格性能保证的经典计算机上运行。我们证明了使用我们的算法在寻找状态准备电路和量子自动编码器的示例问题中将训练成本提高了 2-3 个数量级。
视觉语言模型在一般领域有效,并且在各种多模式应用中显示出强大的性能,例如视觉提问(VQA)(VQA),但可以在更专业的领域(例如Medical)中维持相同水平的有效水平。我们提出了一个医学视觉语言模型,该模型集成了适合医疗领域的大型视觉和语言模型。该模型使用三个独立的生物基础和放射学多模式视觉和文本数据集经历了参数有效训练的三个阶段。所提出的模型在Slake 1.0 Medical VQA(MEDVQA)数据集上实现了最先进的性能,总体效果为87。5%,并在另一个MEDVQA数据集(VQA-RAD)上表现出强烈的表现,总体准确性为73。2%。
连续变量 (CV) 量子光学系统 (QOS) 是量子计算 (QC)、量子机器学习 (QML) 和量子传感 (QS) 的一个有利平台,因为它们可以在室温下运行,具有确定性纠缠操作,并且具有变分量子算法 (VQA) 中使用的高效量子噪声缓解协议 [1,2]。VQA 评估在量子计算机上执行的参数化量子电路的成本函数 [3],而经典计算机通过优化电路参数来最小化该成本。到目前为止,VQA 已在 CVQOS 中为变分特征值求解器实现 [4]。CV 平台特别适合 CV 幺正的变分编译任务 [5]。这种量子编译可用于优化量子门组合,以最大限度地减少量子算法所需的资源。
变分量子算法 (VQA) 已被证明是 QML 最有前途的方法,因为它们使用经典计算机来最大限度地减少当今量子计算机的局限性。 VQA 使用经典计算机来优化参数化量子电路 (PQC),该电路在量子计算机上计算解决方案。然而,这些 VQA 的性能高度依赖于所选的超参数,这些超参数必须在执行之前确定,并且高度依赖于问题。由于已经有大量超参数可供选择,因此手动测试它们非常耗时且耗资源。因此,在经典的 ML 应用中,人们会使用自动化解决方案,但它们对 QML 的适用性几乎尚未得到研究。因此,在本研究中,我们研究了各种自动超参数调整算法对于 QML 分类问题的适用性和性能。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。