我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
一些具有基本频率(F 0)控制的神经声码器已成功地对单个CPU进行实时推断,同时保留了合成语音的质量。但是,与基于信号处理的旧声音编码器相比,它们的推理速度仍然很低。本文提出了一个基于源滤波器模型的神经声码器,具有可训练的时间变化的有限冲动响应(FIR)过滤器,以达到与传统声音编码器相似的推理速度。在拟议的模型中,使用神经网络预测了FIRNET,多个FIR系数,然后通过将混合的激发信号与这些FIR系数进行卷积,从而生成语音波形。实验结果表明,Firenet可以达到类似于传统声音编码器的推理速度,同时保持F 0可控性和自然语音质量。
统一信息提取(UIE)旨在从非结构化文本中提取各种结构化信息。虽然大型语言模型(LLMS)对UIE表现出了希望,但它们需要大量的计算资源,并且经常难以推广到看不见的任务。我们提出了Ruie(基于r Etrieval的U NIDIFIED I NFORMATION e XTRACTION),该框架利用了文本学习以进行有效的任务概括。ruie介绍了一种新颖的演示选择机制,将LLM偏好与关键字增强的模型相结合,并采用了通过对比度学习和知识蒸馏而训练的双重编码猎犬。作为UIE的第一个可训练的检索框架,Ruie是各种LLM的Univer-sal插件。八个持有数据集的实验结果证明了Ruie的有效性,与指导调用方法和其他检索器相比,F1得分的平均改善分别为19.22和3.22。
在正常业务过程中,公司花费大量精力阅读和解释文件,这是一个高度手动的过程,涉及繁琐的任务,例如识别日期和名称或确定合同中某些条款的存在与否。处理自然语言很复杂,而且这些文档有各种格式(扫描图像、数字格式)并具有不同程度的内部结构(电子表格、发票、文本文档),这进一步加剧了复杂性。我们提出了 DICR,这是一个端到端、模块化且可训练的系统,可自动执行文档审查的日常工作并允许人工执行验证。该系统能够加快这项工作,同时提高提取信息的质量、一致性和吞吐量并减少决策时间。提取的数据可以输入到其他下游应用程序中(从仪表板到问答再到报告生成)。
亚马逊,美国西雅图的应用科学家实习生,美国05/2021-08/2021•我们提出了一个基于相互信息共同培训(MICO)的选择性搜索框架(通过相似性将文档聚集到群体,并仅在其最相关的组中搜索每个查询)。与搜索所有文档相比,我们将搜索成本降低到5%,达到99%的准确性。•MICO是端到端的学习模型。其目标函数是查询的两个组索引及其相关文档之间的共同信息,这两者都是可训练的神经网络的输出。•在我的实施中,该模型将BERT表示为输入(查询或文档标题)作为输入,并且可以在巨大的数据集(数百GB)上有效培训,并且BERT也可以进行列出。•MICO的论文被Coling 2022接受为口头呈现(10%)。
我们研究了使用注意力机制将规划机制集成到序列到序列模型中。我们开发了一个模型,该模型可以在计算输入和输出序列之间的对齐时提前规划未来,构建一个拟议未来对齐矩阵和一个承诺向量,该承诺向量决定是否遵循或重新计算计划。该机制的灵感来自最近提出的强化学习战略性专注读者和作家 (STRAW) 模型。我们提出的模型是端到端可训练的,主要使用可微分操作。我们表明,它在 WMT'15 的字符级翻译任务、查找图的欧拉电路的算法任务以及从文本生成问题方面的表现优于强大的基线。我们的分析表明,该模型计算出定性的直观对齐,比基线收敛得更快,并且以更少的参数实现了卓越的性能。
摘要 - Quantum机器学习(QML)作为量子计算与机器学习(ML)的组合是探索的诺言方向,尤其是由于实现量子计算机的进步和所希望的量子优势。QML中几乎没有接近的领域是量子多代理增强学习(QMARL),尽管证明对解决工业管理,例如工厂管理,蜂窝访问和移动性合作有可能具有吸引力。本文提出了一种空中通信的用例,并引入了杂种量子古典(HQC)ML算法来解决它。此用例旨在提高飞行临时网络的连接性,并通过HQC多代理近端策略优化算法来解决,其中集中评论家的核心被数据重新上传变异量子电路所取代。结果表明,相对于可比的经典算法,早期达到收敛性以及这种解决方案的可伸缩性的性能略有提高:ANSATZ的大小增加,从而增加了可训练的参数的数量,从而导致了更好的现象。这些有希望的结果表明,Qmarl对与工业相关的复杂用例的潜力。索引术语 - Quantum Computing,多代理增强学习,交流,网络
变分量子算法 (VQA),如量子近似优化算法 (QAOA)、变分量子特征值求解器 (VQE)、量子神经网络 (QNN) 和量子编译 (QC),有望在传统计算机以外的嘈杂中型量子 (NISQ) 设备上解决实际任务 1 。最近的成果证明了其在量子态制备 2 – 6 、量子动态模拟 2 、 7 – 9 和量子计量 10 – 14 方面的有效性。尤其是 QC,引起了人们的极大兴趣。它使用训练过程将信息从未知目标单元转换为可训练的已知单元 15 、 16 。该方法有多种应用,包括门优化 15 、量子辅助编译 16 、连续变量量子学习 17 、量子态层析成像 18 和量子对象模拟 2 。例如,可以准备量子对象(例如量子态),并使用 QC 2 在量子电路中模拟其演化。QC 的性能取决于量子比特的数量和电路深度。可训练量子电路的选择也至关重要,必须仔细选择。一些纠缠
许多地下流动应用涉及对物理定律充分了解的组成部分,以及在物理定律了解不足或不适用的其他组件中。数值建模在前者方面擅长于以前的机器学习(ML)在后者方面的插值数据,但是两种方法都无法同时解决这些组件。现有的ML方法(通常称为具有物理信息的ML或PIML)同时处理这些类型的组件是对标准ML方法的较小调整(例如,PIML可能会使用物理数据进行训练或损失功能来鼓励ML遵守ML,而无需任何准确保证方程式)。调整黑盒ML模型在根本上受到限制,因为“大数据没有解释自身” - 在模型中意味着,可解释的结构是提高可预测性,使人类理解和最大化小数据影响的必要性。我们展示了可区分的编程(DP)如何使我们能够使用可训练的ML融合值得信赖的数值建模,从而增强了用于物理模型开发,倒数分析和机器学习的工作流程。
我们提出了一种自适应物理学的深层均质化神经网络(DHN)方法,以制定具有不同微结构的弹性和热弹性周期性阵列的全场微力学模型。通过完全连接的多层连接的单位细胞溶液通过最大程度地限制根据应力平衡和热传导部分微分方程(PDE)的残差之和,以及无界面的无牵引力或绝热边界条件。相比,通过引入具有正弦函数的网络层直接满足周期性边界条件。完全可训练的权重施加在所有搭配点上,这些搭配点与网络权重同时训练。因此,网络会在损耗函数中自动为界面附近(尤其是单位细胞解决方案的具有挑战性的区域)中的搭配点分配更高的权重。这迫使神经网络在这些特定点上提高其性能。针对有限元素和弹性解决方案的自适应DHN的精度分别用于椭圆形和圆柱孔/纤维的弹性解决方案。自适应DHN比原始DHN技术的优点是通过考虑局部不规则的多孔架构来证明合理的,孔隙 - 孔相互作用使训练网络特别缓慢且难以优化。