大型语言模型在语言使用中是否类似于人类?
机构名称:
¥ 7.0

尽管视觉模型(VLMS)具有多功能视觉效果(VLMS)的功能,但在现有的VLM框架内仍存在两个实质性挑战:(1)缺乏预读和视觉指导调谐方面的任务多样性,以及(2)注释错误和偏见GPT-4综合教学指导性的指导性数据。这两种挑战都导致了诸如不良的普遍性,幻觉和灾难性遗忘之类的问题。为了应对这些挑战,我们构建了v Ision -f LAN,这是迄今为止最多样化的视觉指导调整数据集,包括187个不同的任务和1,664,261个实例,来自学术数据集,每个任务都伴随着专家写作的指导。此外,我们提出了一个两阶段的指令调整框架,其中首先在V Ision -F LAN上对VLM进行了填充,并在GPT-4合成数据上进一步调整。我们发现这个两阶段的调谐框架显着超过了传统的单阶段视觉教学调音框架,并在广泛的多模式评估基准中实现了最新的效果。最后,我们进行了深入的分析以了解视觉指导的调整,我们的发现表明:(1)GPT-4合成数据并不能基本上增强VLMS的功能,而是模型对模型对人类偏爱格式的响应; (2)最小数量(例如1,000)GPT-4合成数据可以有效地使VLM响应与人类偏爱相一致; (3)视觉指导调整主要帮助大语言模型(LLMS)了解视觉特征。我们的数据集和模型可在https://github.com/vt-nlp/ vision-flan上公开获取。

大型语言模型在语言使用中是否类似于人类?

大型语言模型在语言使用中是否类似于人类?PDF文件第1页

大型语言模型在语言使用中是否类似于人类?PDF文件第2页

大型语言模型在语言使用中是否类似于人类?PDF文件第3页

大型语言模型在语言使用中是否类似于人类?PDF文件第4页

大型语言模型在语言使用中是否类似于人类?PDF文件第5页

相关文件推荐

探索大型语言模型
2024 年
¥1.0