编辑或生成图像的新方法

MIT研究人员发现,称为编码器或“ Tokenizers”的特殊类型的神经网络可以比以前意识到的要多得多。

来源:MIT新闻 - 人工智能

AI图像生成(依靠神经网络都可以从包括文本提示在内的各种输入中创建新图像 - 预计到本十年末将成为十亿美元的行业。即使有了今天的技术,如果您想对一个朋友在火星上种下旗帜或无视黑洞的朋友的幻想,那可能不到一秒钟。但是,在他们可以执行这样的任务之前,图像生成器通常是在包含数百万张图像的大型数据集上训练的,这些图像通常与相关的文本配对。培训这些生成模型可能是一项艰巨的琐事,需要数周或几个月的时间,在此过程中消耗了大量的计算资源。

但是,如果可以通过AI方法生成图像而无需使用发电机,该怎么办?在今年夏天早些时候在不列颠哥伦比亚省温哥华举行的国际机器学习会议(ICML 2025)上发表的一份研究论文中,描述了这种真正的可能性以及其他有趣的想法。该论文描述了操纵和生成图像的新技术,是由MIT信息和决策系统实验室研究生研究员Lukas Lao Beyer撰写的。 MIT计算机科学和人工智能实验室(CSAIL)的博士后Tianhong Li; Facebook AI研究的Xinlei Chen; Sertac Karaman,MIT航空和宇航学教授,盖子主任;和MIT电气工程和计算机科学副教授Kaiming He。

研究论文

这一小组的努力起源于Lao Beyer去年秋天的深层生成模型的研究生研讨会的班级项目。在学期的对话中,老挝·拜耶(Lao Beyer)和教会研讨会的他都显然是这项研究具有真正的潜力,这远远超出了典型的家庭作业的范围。其他合作者很快就被带入了努力。

12