我如何微调花岗岩视觉2b击败90b型号 - 洞察力和经验教训

一个动手旅行,探索探索微观模型的功能的微调技术。我如何微调的花岗岩效率2B击败90b模型 - 洞察力和经验教训首先出现在数据科学方面。

来源:走向数据科学

或视觉模型是一种强大的技术,可以在专业任务上发挥其潜力。但是,尽管它们的有效性,但由于其高计算成本以及对具有大VRAM的GPU的需求,这些方法通常是遥不可及的,这些方法只有一小部分最终用户才能访问。

在这个项目中,我微调了IBM的Granite-Vision 2b,这是一种相对较小而强大的视觉语言模型,以应对将表图像转换为干净,结构化的HTML代码的挑战。

花岗岩 - 视频2B

使该项目特别令人兴奋的是,微调是在消费级GPU上进行的 - NVIDIA RTX 4070 TI SUPER-但是,由此产生的2000亿参数模型能够超过更大的模型,包括Meta-lllama/Llama-3.2-90b-Vision,在此图像上,在此图像上,包括Meta-llama/lllama-3.2-90b-vision。这一成功不仅展示了诸如洛拉(Lora)之类的参数效率微调方法的力量,而且还强调了构建针对特定问题的专业小型模型的实际价值。

meta-llama/llama-3.2–90b-vision

在这篇文章中,我将介绍这项工作,模型和数据集选择的动机,自定义的HTML相似性指标,实验和结果,最后,在整个过程中学习的关键见解和经验教训。无论您是对视觉模型,微调技术还是实用的AI应用程序感兴趣,我希望这一旅程都能提供有用的收获。该项目使用的微调代码改编自Huggingface的Granite Vision微型食谱,由Eli Schwartz撰写,后者又改编了Sergio Paniego的原始代码。

拥抱面的花岗岩视觉微调食谱

动机

专门的小型视觉语言模型专门集中于桌子理解和提取

任务:图像到HTML(表提取)

html pubtabnet-html PubMed Central Open Access子集(商业用途集合) 注释 html相似性