用于文档理解的微调VLLM

了解如何对特定任务进行微调视觉语言模型,以供文档理解进行微调VLLM,首先出现在数据科学上。

来源:走向数据科学

在本文中,我讨论了如何罚款(视觉大语模型,通常称为VLLM),例如QWEN 2.5 VL 7b。我将向您介绍手写数字的数据集,该数据集是QWEN 2.5 VL斗争的基本版本。然后,我们将检查数据集,注释它,然后使用它来创建一个微调的QWEN 2.5 VL,专门研究手写文本。

QWEN 2.5 VL 7B。

概述

本文的主要目标是在当今世界上重要的机器学习技术上微调VLM,语言模型彻底改变了数据科学家和ML工程师的工作和实现方式。我将讨论以下主题:

    动机和目标:为什么使用VLM用于VLMS的文本提取效果,数据集注释和微调技术细节ressults and prots
  • 动机和目标:为什么使用VLM进行文本提取
  • VLMS的优势
  • 数据集
  • 注释和微调
  • SFT技术细节
  • 结果和图
  • 注:本文是作为可查找工作的工作的一部分写的。我们不会从这项工作中获利。这样做是为了强调现代视觉模型的技术能力,并数字化和共享有价值的手写物质数据集,这可能会对气候研究产生重大影响。此外,Netlight在数据和草案事件期间的演示文稿中涵盖了本文的主题。

    可找到 数据和草稿事件 Netlight

    您可以在我们的GitHub存储库中查看本文使用的所有代码,并且所有数据都可以在HuggingFace上使用。如果您对挪威提取的物候数据特别感兴趣,包括与数据相对应的地理坐标,则该信息直接在此Excel表中可用。

    在我们的github存储库中 所有数据都可以在HuggingFace上 excel表

    动机和目标

    此GitHub存储库中的读数。 本文有关分析植物开花的长期变化, 宾夕法尼亚州东部物候项目。 H3由Uber提供。 此镶木quet文件。 OCR Tesseract doctr H3由Uber提供。 此镶木quet文件。 OCR Tesseractdoctr