摘要 - 视觉生成仍然是人工智能中的具有挑战性的边界,需要无缝整合视觉不介绍和生成能力。在本文中,我们提出了一个新颖的框架,即视觉驱动的及时优化(VDPO),该框架利用大型语言模型(LLMS)动态地从视觉输入中生成文本提示,从而指导高实现图像综合。VDPO结合了视觉嵌入提示调谐器,文本指令生成器和视觉生成模块,以实现各种视觉生成任务的最新性能。在基准(例如可可和粗略)上进行的广泛实验表明,VDPO始终超过现有方法,从而实现了FID,LPIPS和BLEU/CIDER分数的显着改进。其他分析揭示了VDPO的可扩展性,鲁棒性和概括能力,使其成为内域和外域任务的多功能解决方案。人类评估进一步验证了VDPO在产生视觉吸引力和语义相干输出方面的实际优势。索引术语 - LARGE语言模型,提示优化,扩散模型