API Application Programming Interface BC Behavior Cloning BERT Bidirectional Encoder Representations from Transformers CaP Code - as - policies GPT Generative Pre - trained Transformer LLM Large Language Model LMM Large Multimodal Model LMP Language Model generated Programs PaLI Pathways Language and Images PaLM Pathways Language Model RL Reinforcement Learning RT Robotics Transformer ViT Vision Transformer VLA Vision - Language - Action VLM Visual Language Model VQA Visual问题回答
变分量子算法 (VQA) 经典地优化参数化量子电路以解决计算任务,有望增进我们对量子多体系统的理解,并使用近期量子计算机改进机器学习算法。这类量子-经典混合算法面临的突出挑战是与其经典优化相关的量子纠缠和量子梯度的控制。这些量子梯度被称为贫瘠高原现象,在体积定律纠缠增长的情况下,它们可能会迅速消失,这对 VQA 的实际应用构成了严重障碍。受最近对随机电路中测量诱导纠缠转变研究的启发,我们研究了具有中间投影测量的变分量子电路中的纠缠转变。考虑 XXZ 模型的哈密顿变分拟定 (HVA) 和硬件高效拟定 (HEA),我们观察到随着测量率的增加,测量诱导的纠缠转变从体积定律到面积定律。此外,我们提供了证据表明,该转变属于随机酉电路的同一普适性类别。重要的是,该转变与经典优化中从严重到温和/无贫瘠高原的“景观转变”相吻合。我们的工作可能为通过在当前可用的量子硬件中结合中间测量协议来提高量子电路的可训练性提供一条途径。
摘要 - 大多数现有的社会机器人导航技术要么利用手工制作的规则,要么是人类的示范,以将机器人感知与社会兼容的行动联系起来。但是,有效地将感知转化为具有社会符合社会的行动,就像人类推理在动态环境中自然发生一样。考虑到视觉模型(VLM)的最新成功,我们建议使用语言来弥合感知和具有社会意识的机器人行动之间类似人类的推理的差距。我们通过可解释的互动(SNEI)创建了一个视觉语言数据集,社交机器人导航,特征是基于2K人类机器人社交互动的40k人类通知的视觉问题答案(VQA),在非结构化的,拥挤的公共空间,跨越的公共空间,跨越感知,预测,预测,预测,三连锁推理,链的推理,行动,动作,动作,动作和解释。我们使用Snei微调了VLM,社交式,以演示我们数据集的实际应用。社交式的表现优于诸如GPT-4V和Gemini的最新模型,基于50个VQA的15种不同的人为法官得分的平均值。在船上部署了一个移动机器人,社交式实现了类似人类的推理,这标志着通过语言推理在动态公共空间中朝着社会兼容的机器人导航迈出的有希望的一步。
这项工作研究了基于脉冲的变分量子算法(VQA),旨在通过结合经典和量子硬件来确定量子机械系统的基态。与更标准的基于栅极的方法相反,基于脉冲的方法旨在直接优化与量子器相互作用的激光脉冲,而不是使用一些基于参数化的门电路。使用最佳控制的数学形式主义,这些激光脉冲得到了优化。此方法已在量子计算中使用,以设计量子栅极的脉冲,但直到最近才提出了在VQA中进行完全优化[1,2]。基于脉冲的方法比基于门的方法具有多个优点,例如状态准备,更简单的实现以及在状态空间中移动的自由度[3]。基于这些思想,我们介绍了采用基于伴随的最佳控制技术的变异量子算法的开发。此方法可以量身定制并应用于中性原子量子组合体中。基于脉冲的变分量子最佳控制能够近似于化学精度的简单分子的分子基态。此外,它能够以量子评估总数为基于门的变异量子质量或均匀表现。总进化时间t和控制汉密尔顿H C的形式是收敛行为与基态能量的重要因素,既对量子速度极限和系统的可控性都有影响。
变异量子算法(VQA)被认为是嘈杂的中间尺度量子(NISQ)设备的有用应用。通常,在VQA中,参数化的ANSATZ电路用于生成试验波函数,并且对参数进行了优化以最大程度地减少成本函数。另一方面,已经研究了盲量量计算(BQC),以便通过使用云网络为量子算法提供安全性。执行量子操作能力有限的客户端希望能够访问服务器的量子计算机,并且BQC允许客户端使用服务器的计算机,而不会泄漏客户端的信息(例如输入,运行量子算法和输出)到服务器。但是,BQC设计用于容差量子计算,这需要许多辅助量子位,这可能不适合NISQ设备。在这里,我们提出了一种有效的方法,可以为客户端提供保证安全性的NISQ计算。在我们的体系结构中,仅需要N +1量子位,假设服务器已知Ansatzes的形式,其中N表示原始NISQ算法中必要的量子数。客户端仅在从服务器发送的辅助量子位上执行单量测量,并且测量角可以指定NISQ算法的ANSATZES的参数。无信号原则可以保证客户端选择的参数或算法的输出都不会泄漏到服务器。这项工作为NISQ设备的新应用程序铺平了道路。
在量子计算中,变分量子算法 (VQA) 非常适合在从化学到金融的特定应用中寻找事物的最佳组合。使用梯度下降优化算法训练 VQA 已表现出良好的收敛性。在早期阶段,在嘈杂的中型量子 (NISQ) 设备上模拟变分量子电路会受到噪声输出的影响。就像经典的深度学习一样,它也受到消失梯度问题的影响。研究损失景观的拓扑结构,在消失梯度存在的情况下可视化这些电路的曲率信息和可训练性是一个现实的目标。在本文中,我们计算 Hessian 并可视化变分量子分类器在参数空间中不同点的损失景观。解释了变分量子分类器 (VQC) 的曲率信息并展示了损失函数的收敛性。它有助于我们更好地理解变分量子电路的行为,从而有效地解决优化问题。我们在量子计算机上通过 Hessian 研究了变分量子分类器,从一个简单的 4 位奇偶校验问题开始,深入了解 Hessian 的实际行为,然后彻底分析了 Hessian 的特征值在训练糖尿病数据集的变分量子分类器时的行为。最后,我们展示了自适应 Hessian 学习率如何影响训练变分电路时的收敛。
尽管它们取得了成功,但人们并不总是清楚,在多大程度上真正的多模态推理和理解对于解决当前的许多任务和数据集是必需的。例如,有人指出,语言可能会无意中强加强大的先验,从而产生看似令人印象深刻的性能,而对底层模型中的视觉内容却没有任何理解 [15]。在 VQA [3] 中也发现了类似的问题,其中没有复杂多模态理解的简单基线表现非常好 [94, 35, 1, 26],在多模态机器翻译 [18, 74] 中,图像被发现相对重要 [13, 17, 7]。在这项工作中,我们提出了一个旨在衡量真正的多模态理解和推理的挑战集,具有直接的评估指标和直接的真实世界用例。
[52]。对文本理由的需求仍然至关重要,尤其是在技术采用取决于这一因素的安全领域[29]。考虑端到端自动驾驶的域[11],其中通常通过深层神经网络处理摄像头输入执行驾驶策略以发电控制命令。在VLM中的最新步伐具有固体变压器作为多模式学习者,在视觉问题(VQA)(VQA)(VQA)等任务中表现出了出色的表现,并强调了它们在复杂任务的强大表示方面的熟练程度[14]。倾斜视觉语言模型(VLM)进入自主驾驶领域,有望增强对这些系统的用户信任。我们的重点是仅视觉的端到端自动驾驶,旨在弥合数据驱动的决策和用户信任之间的差距。我们介绍了lingoqa,这是一种专为自动驾驶视频QA而设计的台式标记,它利用了一个包含419k QA对的新型数据集。通过其自由形式的问题和诉讼方法来区分,该数据集扩大了自动驱动视频质量质量质量检查的范围,涵盖了推理和行动的合理性。此外,我们发布了一个全面的评估套件,该评估套件由1,000个示例组成。在我们的基准标准的核心上是一个基于一个学识渊博的文本分类器Lingo-Gudge的新颖评估指标,其灵感来自真实的GPT法官[34]。评估代码和分类的权重将与纸张一起释放,以支持强大的板凳标记自动驾驶中的视频问题。We perform rigorous stud- ies correlating automatic metrics to human preferences and find that Lingo-Judge achieves a 0.950 Spearman and 0.993 Pearson correlation coefficient, surpassing existing auto- mated labelling techniques like METEOR [ 5 ], BLEU [ 40 ], CIDEr [ 49 ], and GPT-4 [ 39 ] on our benchmark, while being fast enough for frequent runs during培训和发展。配备了此评估工具包,我们就关键组件及其在VLM中进行自动驾驶的融合进行了全面的经验研究。我们在第5节中的发现表明,最有效的方法涉及对配备Vicuna-1.5-7B的视觉语言模型的注意力层[13],均在动作和风景数据集上。此过程涉及在4秒内使用5个视频帧和一种晚期视频效果技术。我们的集体工作,跨越了LingoQA基准,视觉指导调查数据集和创新的评估指标,旨在推动语言提名的自主驾驶领域,为后续的研究和开发范围奠定了强大的基础。总结本文的主要贡献:
我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
在本研究中,我们使用视觉语言模型 (VLM) 作为二元成功检测器,给定机器人观察和任务描述,将其表述为视觉问答 (VQA) 问题。我们对开源 MiniGPT-4 VLM 进行了微调,以检测来自 Berkeley Bridge 和 Berkeley AUTOLab UR5 数据集的机器人轨迹上的成功。我们发现,虽然少量测试分布轨迹可以训练出准确的检测器,但由于分布偏移,在不同环境之间迁移学习具有挑战性。此外,虽然我们的 VLM 对语言变化具有鲁棒性,但对视觉变化的鲁棒性较差。未来,更强大的 VLM(例如 Gemini 和 GPT-4)有可能成为更准确、更强大的成功检测器,并且成功检测器可以提供稀疏的二元奖励来改进现有策略。