llava

2024-06-07 机构名称:

跨任务可转移有效的学习，...

- 大型语言模型（例如GPT [1]，Llama 2 [2]，Llava [3]），以利用基于变压器的生成模型的能力来解释以自然语言提出的最终用户的问题，生成符合内部文本需求的文本和代码，并基于基于繁殖链（Cot（Cot）（Cot（Cot）（Cot（Cot））提示， - 多模式体系结构（例如剪辑[4]），以有效处理不同模态的输入数据（例如，图像，表格，语音）； - 搜索引擎（例如Elasticsearch [5]），有效地存储，索引和检索有关漏洞和渗透测试的数据； - 通过利用LLM功能来有效地解决有关专有数据的任务的检索（例如Llama索引[6]）。

查看详细

File

2024-12-12 机构名称:

是什么使良好的视觉说明？合成视觉说明调整的复杂视觉推理说明

视觉指导调整对于赋予多模式大语言模型（MLLMS）的零弹性概括性capabil至关重要。在本文中，我们旨在投资一个基本问题：“什么使良好的视觉说明造就了”。通过一项综合实证研究，我们发现着重于复杂的视觉推理任务的指导在改善MLLM的性能方面特别有效，结果与指导复杂性有关。基于这种见解，我们开发了一种系统的方法来自动创建高质量的复杂视觉推理指令。我们的方法采用合成完整的改革范式，利用多个阶段来逐步提高说明的复杂性，同时保证质量。基于此AP-PRACH，我们创建了具有32K示例的Comvint数据集，并在其中创建了四个mllms。实验结果始终取消了所有组合MLLM的性能，例如MME感知和MME认知的LLAVA分别提高了27.86％和27.60％。我们的代码和数据可在链接上公开获取：https：//github.com/rucaibox/comvint。

查看详细

File

2024-12-13 机构名称:

llava-re：具有多模式大语模型

多模式生成型AI通常涉及在另一种模态中给定输入给定的图像或文本响应。图像文本相关性的评估对于衡量响应质量或对候选响应的排名至关重要。在二元相关性评估中，即，“相关”与“不相关”是一个基本问题。但是，考虑到文本具有多种格式，相关性的定义在不同的情况下有所不同，这是一项具有挑战性的任务。我们发现，多模式的大型语言模型（MLLM）是构建此类评估者的理想选择，因为它们可以灵活地处理复杂的文本格式并掌握适当的任务信息。在本文中，我们介绍了Llava-re，这是与MLLM进行二进制图像文本相关性评估的首次尝试。它遵循LLAVA体系结构，并采用详细的任务指令和多模式IN上下文样本。此外，我们提出了一个新型的二进制相关数据集，该数据集涵盖了各种任务。实验结果验证了我们框架的有效性。

查看详细

File

2024-07-08 机构名称:

mblip：多语言视觉-LLMS的有效自举

模块化视觉模型（视觉-LLM）与（冷冻）大语言模型（LLMS）和事后状况LLMS对齐图像编码器，以“理解”图像输入。随着丰富的高质量英语图像文本数据以及强大的单语英文LLM的丰富性，研究重点一直放在英语的视觉上。多语言视觉语言模型仍主要通过昂贵的端到端预审计获得，从而产生了相对较小的模型，该模型接受了培训的多语言图像数据，并补充了仅文本的多语言语料库。我们提出了MBLIP，这是第一个Vision-Llm利用Mul-litsiantual LLM，我们以构成有效的方式在消费者级硬件上获得。为此，我们将先前调整为英文LLM调整为新的多语言LLM的图像编码器仅使用几百万个多语言培训示例，这些训练示例来自视觉和语言任务的组合，我们通过机器转换为95种语言而获得的高质量的英语数据。在Iglue基准和XM3600上，MBLIP产生与最先进的mod-els竞争的重新竞争，它极大地超过了强大的英语 - 仅有llava 1.5的视觉效果。我们在https：//github.com/gregor-ge/mblip上发布了模型，代码和火车数据。

查看详细

File

2024-07-09 机构名称:

用于蛋白质理解的大语言模型的微调数据集和基准测试

蛋白质序列与自然语言之间的高相似性，特别是在其顺序数据结构中，在两个领域的深度学习模型中都取得了平行的进步。在自然语言处理（NLP）中，大型语言模型（LLMS）在文本，翻译和对话代理等任务中取得了巨大的成功，因为它们对各种数据集进行了广泛的培训，使他们能够捕获复杂的语言模式并具有类似人类的文本。受这些进步的启发，研究人员试图通过将蛋白质序列编码器与诸如LLAVA之类的设计之类的设计来适应蛋白质理解。但是，这种适应提出了一个基本问题：“最初是为NLP设计的LLM可以有效地将蛋白质序列理解为一种语言形式吗？”由于蛋白质序列和相应的文本描述之间缺乏直接相关性，目前的数据集在解决这个问题方面缺乏，从而限制了训练和评估LLM的能力，无法有效地了解蛋白质的理解。为了弥合这一差距，我们引入了proteinlmdataset，该数据集是专门设计的，专门针对LLMS的进一步自我监管的预处理和监督微调（SFT），以增强其对蛋白质序列理解的能力。具体来说，蛋白质质量包括174.6亿个代币，用于训练预处理和SFT的893K指令。此外，我们提出了蛋白质一个基准数据集，该数据集由944个手动验证的多项选择问题组成，用于评估LLMS的蛋白质理解。Proteinlmbench以多种语言结合了与蛋白质相关的细节和序列，建立了评估LLMS蛋白质理解能力的新标准。大语模型interlm2-7b在蛋白质质量上预处理并进行了微调，在蛋白质Lmbench上的表现优于gpt-4，获得了最高的精度得分。数据集和基准可在https://huggingface.co/datasets/tsynbio/proteinlmdataset/和https://huggingface.co/datasets/tsynbio/tsynbio/proteinlmbench中获得。代码可在https://github.com/tsynbio/proteinlmdataset/上获得。

查看详细

XiaoMi-AI文件搜索系统

llava

跨任务可转移有效的学习，...

是什么使良好的视觉说明？合成视觉说明调整的复杂视觉推理说明

llava-re：具有多模式大语模型

mblip：多语言视觉-LLMS的有效自举

用于蛋白质理解的大语言模型的微调数据集和基准测试

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI