详细内容或原文请订阅后点击阅览
用于文档理解的微调VLLM
了解如何对特定任务进行微调视觉语言模型,以供文档理解进行微调VLLM,首先出现在数据科学上。
来源:走向数据科学在本文中,我讨论了如何罚款(视觉大语模型,通常称为VLLM),例如QWEN 2.5 VL 7b。我将向您介绍手写数字的数据集,该数据集是QWEN 2.5 VL斗争的基本版本。然后,我们将检查数据集,注释它,然后使用它来创建一个微调的QWEN 2.5 VL,专门研究手写文本。
QWEN 2.5 VL 7B。概述
本文的主要目标是在当今世界上重要的机器学习技术上微调VLM,语言模型彻底改变了数据科学家和ML工程师的工作和实现方式。我将讨论以下主题:
- 动机和目标:为什么使用VLM用于VLMS的文本提取效果,数据集注释和微调技术细节ressults and prots
注:本文是作为可查找工作的工作的一部分写的。我们不会从这项工作中获利。这样做是为了强调现代视觉模型的技术能力,并数字化和共享有价值的手写物质数据集,这可能会对气候研究产生重大影响。此外,Netlight在数据和草案事件期间的演示文稿中涵盖了本文的主题。
可找到 数据和草稿事件 Netlight您可以在我们的GitHub存储库中查看本文使用的所有代码,并且所有数据都可以在HuggingFace上使用。如果您对挪威提取的物候数据特别感兴趣,包括与数据相对应的地理坐标,则该信息直接在此Excel表中可用。
在我们的github存储库中 所有数据都可以在HuggingFace上 excel表