Loading...
机构名称:
¥ 1.0

摘要 - 视觉生成仍然是人工智能中的具有挑战性的边界,需要无缝整合视觉不介绍和生成能力。在本文中,我们提出了一个新颖的框架,即视觉驱动的及时优化(VDPO),该框架利用大型语言模型(LLMS)动态地从视觉输入中生成文本提示,从而指导高实现图像综合。VDPO结合了视觉嵌入提示调谐器,文本指令生成器和视觉生成模块,以实现各种视觉生成任务的最新性能。在基准(例如可可和粗略)上进行的广泛实验表明,VDPO始终超过现有方法,从而实现了FID,LPIPS和BLEU/CIDER分数的显着改进。其他分析揭示了VDPO的可扩展性,鲁棒性和概括能力,使其成为内域和外域任务的多功能解决方案。人类评估进一步验证了VDPO在产生视觉吸引力和语义相干输出方面的实际优势。索引术语 - LARGE语言模型,提示优化,扩散模型

视觉驱动的迅速优化多模式生成任务中的大语言模型

视觉驱动的迅速优化多模式生成任务中的大语言模型PDF文件第1页

视觉驱动的迅速优化多模式生成任务中的大语言模型PDF文件第2页

视觉驱动的迅速优化多模式生成任务中的大语言模型PDF文件第3页

视觉驱动的迅速优化多模式生成任务中的大语言模型PDF文件第4页

视觉驱动的迅速优化多模式生成任务中的大语言模型PDF文件第5页

相关文件推荐

2024 年
¥13.0
1900 年
¥12.0