视觉驱动的迅速优化多模式生成任务中的大语言模型__

视觉驱动的迅速优化多模式生成任务中的大语言模型

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

视觉驱动的迅速优化多模式生成任务中的大语言模型

¥ 1.0

热度

摘要 - 视觉生成仍然是人工智能中的具有挑战性的边界，需要无缝整合视觉不介绍和生成能力。在本文中，我们提出了一个新颖的框架，即视觉驱动的及时优化（VDPO），该框架利用大型语言模型（LLMS）动态地从视觉输入中生成文本提示，从而指导高实现图像综合。VDPO结合了视觉嵌入提示调谐器，文本指令生成器和视觉生成模块，以实现各种视觉生成任务的最新性能。在基准（例如可可和粗略）上进行的广泛实验表明，VDPO始终超过现有方法，从而实现了FID，LPIPS和BLEU/CIDER分数的显着改进。其他分析揭示了VDPO的可扩展性，鲁棒性和概括能力，使其成为内域和外域任务的多功能解决方案。人类评估进一步验证了VDPO在产生视觉吸引力和语义相干输出方面的实际优势。索引术语 - LARGE语言模型，提示优化，扩散模型

添加pdf代下载 VIP点击下载文件