我们是否充分利用多模式大语模型(MLLM)中视觉编码器的潜力?MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中,重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起,以及大型LLM的参与。然而,很少关注的注意力指向MLLM使用的视觉信号,通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中,我们介绍了密集的连接器 - 一种简单,有效且插件的视觉语言连接器,通过利用多层视觉特征来显着增强现有MLLM,并以最少的额外计算开销。在此基础上,我们还提出了有效的密集连接器,该连接器的性能与Llava-V1.5相当,只有25%的视觉令牌。此外,我们的模型仅在图像上进行了训练,还展示了视频理解中出色的零拍功能。各种视觉编码器,图像分辨率,训练数据集量表,不同尺寸的LLM(2.7b→70b)以及MLLM的不同架构(e。g。,llava-v1.5,llava-next和mini-gemini)验证了我们方法的多功能性和可扩展性,从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验,并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。
抽象人工智能(AI)辅助疾病预测由于其支持临床决策的能力而获得了广泛的研究兴趣。现有作品主要将疾病预测作为多标签分类问题,并使用历史电子病历(EMR)来培训监督模型。然而,在现实世界中,这种纯粹的数据驱动方法提出了两个主要挑战:1)长尾巴问题:常见疾病的EMR过多,并且对于罕见疾病的EMR不足,因此对不平衡的数据集进行培训可能会导致在诊断中忽略偏见模型的偏见模型; 2)很容易误诊疾病:某些疾病很容易区分,而另一些疾病则更加困难。一般分类模型而不强调容易诊断的疾病可能会产生错误的预测。为了解决这两个问题,我们在本文中提出了一种医学知识增强的对比学习方法(MKECL)方法。MKECL将医学知识图和医学许可考试纳入建模中,以弥补有关稀有疾病的足够信息;为了处理难以诊断的疾病,MKECL引入了一种对比度学习策略,以分离容易被误诊的疾病。此外,我们建立了一个名为Jarvis-D的新基准,其中包含从各种医院收集的临床EMR。对实际临床EMR的实验表明,拟议的MKECL优于现有的疾病预测方法,尤其是在几乎没有射击和零拍的情况下。
抽象缺陷检测是识别生产样品中缺陷的任务。通常,缺陷检测分类器是根据正常样本(负数据)和具有缺陷(正数据)的样本形成的基地数据训练的,其中后者始终少于正常样本。最新的数据增强程序通过将伪像叠加到普通样本中,以减轻与不平衡培训数据有关的问题,从而添加了合成缺陷数据。这些技术通常会产生分发图像,从而导致系统学习不是正常样本但无法准确识别缺陷的样子的系统。在本文中,我们展示了我们与维罗纳大学(Verona of Verona University of Verona of Veryco)合作进行的研究,即维罗纳大学(University of Verona)的一家企业衍生产品,关于多模式潜在扩散模型(LDMS),以在行业5.0中进行准确的异常检测。与传统的图像生成技术不同,我们在人类的反馈循环管道中工作,在该管道中,域专家通过文本描述和可能异常的区域定位为模型提供了多模式的指导。这种战略转变增强了结果的解释性,并促进了更强大的人类反馈回路,从而促进了生成的输出的迭代改进。值得注意的是,我们的方法以零拍的方式运行,避免了耗时的微调程序,同时实现了卓越的性能。我们证明了它在具有挑战性的KSDD2数据集上的功效和多功能性,从而实现了最新的结果。
最新的自然语言基础模型和计算机视觉基础模型的激增促进了各个领域的创新。受到这一进展的启发,我们探讨了基础模型在智能农业中预测的时间序列的潜力,这是一个经常受到有限数据可用性困扰的领域。具体来说,这项工作提出了一种新的TimeGPT应用,TimeGPT是一种最先进的时间序列基础模型,以预测土壤水潜力(𝜓土壤),这是通常用于灌溉建议的现场水状态的关键指标。传统上,此任务依赖于各种输入变量。我们探索了TimeGPT预测土壤的能力:(𝑖)零拍设置,(𝑖𝑖)仅依靠历史性𝜓土壤测量值的微调设置,以及(𝑖𝑖𝑖)微调的设置,我们还为模型添加了外源变量。我们将TimeGPT的性能与已建立的SOTA基线模型进行了比较,以预测土壤。我们的结果表明,TimeGPT仅使用历史𝜓土壤数据实现竞争性预测准确性,从而强调了其在农业应用中的显着潜力。这项研究通过实现传统上依赖广泛的数据收集和领域实验的预测任务,为农业可持续发展的基础时间序列模型铺平了道路。
视频到音乐的一代需要暂时的本地高质量聆听体验和全球视频声音签名。虽然最近的音乐发电模型通过先进的音频编解码器在前者中脱颖而出,但视频声学签名的探索已被限制在特定的视觉场景中。相反,我们的研究面临着直接从配对的Music和视频中的视频和音乐之间学习的挑战,而没有明确建模域特异性的节奏或语义关系。我们提出了V2meow,这是一种视频到音乐的生成系统,能够使用多阶段自动回归模型为各种视频类型提供高质量的音乐音频。在5k小时的音乐音频剪辑中培训了与野外音乐视频开采的视频框架配对,V2meow以零拍的方式进行评估时,与以前的域特异性型号进行了竞争。它仅通过根据预先训练的通用 - 目的视觉特征进行调节,从视频帧中提取的预先训练的通用视觉特征来综合高保真音乐audio波形,并通过文本提示通过可选的样式控制。通过质量和定量评估,我们证明了我们的模型在视觉声明通信和音频质量方面优于各种现有音乐生成系统。音乐样本可在tinyurl.com/v2meow上找到。
摘要。我们提出了扩散汤,这是一种用于文本到图像生成的隔室化方法,该方法平均训练了在碎片数据上训练的扩散模型的权重。通过施工,我们的方法可以培训 - 免费的持续学习和学习,而没有其他内存或inctionce成本,因为可以通过重新体验来添加或删除与数据碎片相对应的模型。我们表明,从重量空间中的一个散布汤样品近似于组成数据集的分离的几何平均值,该数据集提供了抗MONTORIGATION GUARESES,并启用了零拍的样式混合。从经验上讲,扩散汤优于在所有数据碎片的结合下训练的帕拉贡模型,并在域分片数据上取得了30%的图像奖励(.34→.44),而IR的IR(.37→.59)在摄取数据上提高了59%。在这两种情况下,汤也以TIFA得分占上风(分别为85.5→86.5和85.6→86.8)。我们证明了鲁棒性的学习 - 在IR(.45→.44)中,任何单个域shorn仅降低了1%的性能 - 并验证我们对抗Memorization的实际数据的理论见解。最后,我们展示了扩散汤的能力,可以将不同碎片上固定的模型的独特样式融合在一起,从而导致零发的混合风格产生。
基因组是一个序列,该序列完全编码编排整个生物体功能的DNA,RNA和蛋白质。机器学习的进步与整个基因组的大量数据集相结合可以实现一个生物基础模型,从而加速了复杂分子相互作用的机械理解和生成设计。我们报告了EVO,这是一种基因组基础模型,可实现从分子到基因组量表的预测和产生任务。使用基于深信号处理的进展的体系结构,我们将EVO扩展到70亿参数,上下文长度为131千座(Kb),即单核苷酸,字节分辨率。接受了2的训练。7M核和噬菌体基因组可以概括分子生物学的中央教条的三种基本方式,以执行与领先的领域特异性语言模型具有竞争性或胜过领域的零拍函数预测。evo还擅长多元素生成任务,我们通过首次生成合成的CRISPR-CAS分子复合物和整个可转座系统来证明这一点。使用在整个基因组上学习的信息,EVO还可以预测核苷酸分辨率下的基因本质,并且可以产生长度高达650 kb的编码丰富序列,比以前的方法长。通过EVO进行多模式和多尺度学习的进步,为提高我们对生物学的理解和控制跨多个复杂性提供了有希望的途径。
基因组是一个序列,该序列完全编码编排整个生物体功能的DNA,RNA和蛋白质。机器学习的进步与整个基因组的大量数据集相结合可以实现一个生物基础模型,从而加速了复杂分子相互作用的机械理解和生成设计。我们报告了EVO,这是一种基因组基础模型,可实现从分子到基因组量表的预测和产生任务。使用基于深信号处理的进展的体系结构,我们将EVO扩展到70亿参数,上下文长度为131千座(Kb),即单核苷酸,字节分辨率。EVO经过了整个原核生物基因组的培训,可以概括分子生物学中心教条的三种基本方式,以执行与领先的领域特异性语言模型具有竞争性或优于领先的域模型的零拍函数预测。evo也符合多元元素生成任务,我们通过首次生成合成的CRISPR-CAS分子复合物和整个可转座系统来证明这一点。使用在整个基因组上学习的信息,EVO还可以预测核苷酸分辨率下的基因本质,并且可以产生长度高达650 kb的编码丰富序列,比以前的方法长。通过EVO进行多模式和多尺度学习的进步,为提高我们对生物学的理解和控制跨多个复杂性提供了有希望的途径。
抽象理解劳动力市场动态需要准确地确定劳动力所需和拥有的技能。自动化技术越来越多地发展以支持这一工作。但是,由于现有的技能大量,从职位发布中自动提取技能是具有挑战性的。ESCO(欧洲技能,能力,资格和职业)框架提供了有用的参考,列出了13,000多个个人技能。但是,技能提取仍然很困难,并且将工作职位与ESCO分类学相匹配是一个开放的问题。在这项工作中,我们提出了一个基于大语言模型(LLMS)的职位描述中的技能提取的端到端零拍系统。我们为整个ESCO技能生成合成培训数据,并培训分类器以从工作职位中提取技能。我们还采用了相似性检索器来生成技能候选者,然后使用第二个LLM重新排名。使用合成数据达到RP@10分比以前的遥远监督方法高10分。添加GPT-4重新排行机将RP@10提高到以前的方法超过22点。我们还表明,在提示LLM提示LLM时,将任务作为模拟编程可以比自然语言提示更好的性能,尤其是在LLMS较弱的情况下。我们演示了在匹配管道的两端的两端集成大型语言模型的潜力。我们的方法不需要人类注释,并且在针对ESCO的技能提取方面取得了极为有希望的结果。
理解并遵循自然语言指示在通过综合过程中导航时,现实世界中的环境对通用机器人构成了一个很大的挑战。这些环境通常包括障碍和行人,这对于官员的代理人具有自我校正计划的能力以根据周围环境的反馈来调整其调整的能力至关重要。但是,大多数现有的视觉和语言导航(VLN)方法基本方法在较不现实的模拟器设置中运行,并且不会将环境反馈纳入其决策过程中。为了打扮这个差距,我们介绍了一个名为Cornav的新型零拍框架,利用大型语言模型来制定决策,并组成两个关键组成部分:1)结合环境反馈,以完善未来的计划并调整其行动,并调整其行动,以及2)多个主要专家,以取消指导,并在场景中进行改进,并改进了预定的范围。除了框架外,我们还开发了一个3D模拟器,该模拟器可使用虚幻引擎5.为了评估在零击的多任务设置中导航剂的有效性和概括,我们创建了一个名为navbench的基准。我们的实证研究包括在四个任务中部署7个基线的,即给定目标对象类别,目标条件的导航,给定简单的指令,以下简单的指令,基于高级指令,以及逐步指示。广泛的实验表明,Cornav同意在所有任务中都大大优于所有基准。