生图加入CoT，性能提升80%，微软港中文打造天才画手

更新时间：2025-04-08 15:35:00

【导读】AI绘画总「翻车」，不是抓不住重点，就是细节崩坏？别愁！微软和港中文学者带来ImageGen-CoT技术，让AI像人一样思考推理，生成超惊艳画作，性能提升高达80%。

AI绘画火爆的当下，大家都有过这样的体验：满心欢喜地输入一段描述，满心期待着生成超酷炫的图像，结果AI给出的作品却差强人意，不是没get到重点，就是细节各种「翻车」。

今天要介绍的ImageGen-CoT技术，就像是给AI绘画开了「外挂」，让它变得超智能，创作更轻松！

来自微软和港中文的华人研究者提出了ImageGen-CoT，用思维链（CoT）推理提升文本到图像上下文学习能力。

论文链接：
https://arxiv.org/abs/2503.19312

它在AI绘画生成图像之前，先进行一番思考，梳理出推理步骤，再去创作图像，就像写作文前先列提纲一样。

人类在面对多模态信息时，比如看到「皮革装订的书」「皮革苹果」，再被要求画「皮革盒子」，能轻松推断出「皮革」这个关键特征，并应用到新的创作中。

但现有的多模态大语言模型（MLLM）在处理这类文本到图像上下文学习（T2I-ICL）任务时，却表现得差强人意，经常抓不住重点，生成的图像和预期相差甚远。

ImageGen-CoT的核心就是在图像生成之前引入思维链（CoT）推理。

想象一下，AI就像一个小画家，以前画画的时候，拿到描述就直接动手，毫无规划，所以画得乱七八糟。

现在有了ImageGen-CoT，小画家会先思考：「这个描述里有什么关键信息？之前有没有类似的描述，它们有什么共同点？」

想清楚这些之后，再开始画画，这样画出来的作品自然更符合期待。

大量的实验表明，该方法显著提高了模型性能，SEED-X微调后在T2I-ICL任务上的性能提升高达80%。

使用ImageGen-CoT进行微调的SEED-X在CoBSAT和DreamBench++上分别提高了89%和114%。

ImageGen-CoT如何构建

接下来，详细介绍ImageGen-CoT框架，首先，介绍ImageGen-CoT的公式化表述。

其次，描述用于收集高质量ImageGen-CoT数据集的自动流程。详细阐述数据集的公式化表述以及用于使用收集到的数据集对模型进行微调的损失函数。

最后，探索在推理过程中提高模型性能的各种策略，提出一种新颖的混合扩展方法，应对上下文理解和生成方面的挑战。

两阶段推理：稳扎稳打生成图像

ImageGen-CoT 采用了两阶段推理的方式。

第一阶段，模型会根据输入的文本和指令，生成ImageGen-CoT推理链R。

这个推理链就像是画家画画前打的草稿，把图像的关键信息、创作思路都梳理清楚。

第二阶段，模型把原始输入X、生成的推理链R，还有强制图像生成标记

用公式表示就是：

这里，M代表统一的MLLM，⊕表示连接操作。

这种两阶段的设计，能确保图像生成更稳定、更准确。

数据集构建

为了能更好地学习，ImageGen-CoT构建了高质量的数据集。

首先，研究人员从现有的T2I-ICL任务训练数据集中收集各种指令，建立一个指令池。

然后，开启自动数据集构建流程。在这个流程里，MLLM身兼数职。它先是作为生成器，生成N个包含ImageGen-CoT和下一幅图像提示的输出。

然后，MLLM充当选择器，从N个候选图像中选择最佳图像。

如果图像达到了质量标准，或者达到了最大迭代次数，流程终止并输出相应的ImageGen-CoT和图像对。

要是没达标，MLLM就会化身为评论者，给这幅图像挑挑刺，指出哪里画得不好。

最后，MLLM再作为优化器，根据评论修改提示，然后重新生成图像，这个过程不断循环，直到选出最完美的图像和对应的ImageGen-CoT。

通过这样严格的筛选，构建出的ImageGen-CoT数据集质量超高，每一个样本都是精心挑选出来的。

训练与优化

数据集构建好之后，就要用它来训练MLLM啦。

训练时，研究人员把ImageGen-CoT数据集分成了两个部分。

第一部分用来训练模型生成ImageGen-CoT文本，第二部分训练模型根据生成的ImageGen-CoT文本生成图像。

如果模型使用的是离散视觉标记，就用和语言建模类似的损失函数：

其中，y_i是ImageGen-CoT文本中的第i个标记，

表示前面的标记，X是输入，N是ImageGen-CoT序列中的标记总数。

要是用的是连续视觉嵌入，就采用均方误差损失函数：

其中，

是生成的视觉嵌入，z是相应的目标视觉嵌入。

通过训练，模型生成准确ImageGen-CoT的能力越来越强，图像生成的质量也大幅提升。

研究人员在测试阶段也进行了优化，探索了三种测试时扩展策略：单CoT扩展、多CoT扩展和混合扩展。

单CoT扩展就是从一个ImageGen-CoT生成多个图像变体；多CoT扩展则是生成多个不同的ImageGen-CoT思维链，每个思维链生成一幅图像。

混合扩展更厉害，首先生成多个ImageGen-CoT思维链，然后为每个思维链创建多个图像变体。

实验证明，混合扩展策略效果最好。在理解和生成图像两方面都能快速提升，为复杂多模态任务的性能优化开辟了新道路。

ImageGen-CoT效果有多惊艳？

为了验证ImageGen-CoT，研究人员在CoBSAT和DreamBench++这两个权威的T2I-ICL基准测试中进行了实验。

测试成绩亮眼

在CoBSAT测试中，使用ImageGen-CoT后，SEED-LLaMA的平均分数从0.254提高到0.283，相对提升了11.4%。

SEED-X的提升更明显，从0.349提高到0.439，相对提升25.8%。

经过ImageGen-CoT数据集微调后，SEED-LLaMA的平均分数达到0.291，比基线提升了14.6%。

SEED-X更是飙升到0.658，相对提升高达88.5%。

在DreamBench++测试中，同样成绩斐然。

SEED-X使用ImageGen-CoT后，CP・PF分数从0.188提升到0.347，相对提升84.6%。

微调后，SEED-X的CP・PF分数达到0.403，相对提升114.4%；SEED-LLaMA微调后的CP・PF分数也从0.078提升到0.101，相对提升29.5%。

这充分证明了ImageGen-CoT在提升模型性能方面的强大实力。

测试时扩展

为了进一步提升模型性能，研究人员探索了各种测试时扩展策略。

采用「N选优」方法，让模型生成多个图像变体，并通过真实指标评估（pass@N）。

作为基线方法，首先对普通的SEED-X模型进行实验，通过改变种子值生成多个图像。

然后，使用ImageGen-CoT 数据集微调后的SEED-X的三种高级扩展策略：

多CoT扩展，生成多个不同的ImageGen-CoT思维链，每个思维链生成一幅图像。
单CoT扩展，从单个ImageGen-CoT思维链生成多个图像变体。
混合扩展，这是一种新颖的方法，结合了两种策略的优势，即首先生成多个ImageGen-CoT思维链，然后为每个思维链生成多个图像变体。

实验揭示了三个关键发现。

第一，普通的SEED-X@16基线（在CoBSAT上得分为 0.67，在Dreambench++上得分为0.312 ）甚至不如最简单的扩展策略（例如，在CoBSAT@2上得分为0.747 ），这凸显了整合ImageGen-CoT的必要性。

第二，多CoT扩展在性能上与单CoT扩展相当，证明了生成多样化的推理路径与从单个CoT生成不同输出的效果相同。

最后，混合扩展在各个基准测试中始终获得最高分数。在N=16时，混合扩展将CoBSAT的性能提高到0.909（比单CoT扩展高1.9% ），将Dreambench++的性能提高到0.543（比单CoT扩展高0.8% ）。

ImageGen-CoT的整合实现了在理解和生成维度上的有效双向扩展。这种双轴可扩展性为优化复杂多模态任务中的 MLLM性能开辟了新途径。

定性结果展示

ImageGen-CoT的效果在实际生成的图像中也体现得淋漓尽致。

比如在生成「带蕾丝图案的书」的图像时，基线SEED-X只能画出一个基本的书的形状，完全没注意到「蕾丝」这个关键属性。

使用ImageGen-CoT提示后，由于模型理解能力有限，生成的图像质量反而更差了。

但经过ImageGen-CoT数据集微调后，模型成功捕捉到了「蕾丝」属性，生成了一本精美的蕾丝书，细节满满。

生成「在石头上、在花园里、表情悲伤的鸡蛋」的图像时，基线SEED-X生成的鸡蛋只是简单张嘴，完全忽略了「在石头上」「在花园里」这些要求和特征。

使用ImageGen-CoT提示后，虽然鸡蛋放在了石头上，但还是缺少面部表情和花园环境。

而微调后的模型则完美理解了所有任务要求，生成的图像中，鸡蛋稳稳地放在石头上，周围是美丽的花园，鸡蛋还带着悲伤的表情，和输入的描述一模一样。

这些对比，让我们清晰地看到了ImageGen-CoT如何让AI绘画从「青铜」变成「王者」。

背后的秘密：提升理解能力

为什么ImageGen-CoT能够提升模型性能呢？关键在于它增强了模型的理解能力。

研究人员让模型为下一幅图像生成文本描述，以此来评估模型的理解能力。

以SEED-X为例，通过提示应用ImageGen-CoT时，其文本生成模式的平均分数从0.174提高到0.457，用ImageGen-CoT数据集微调后，更是提升到0.760。

同时，增强的理解能力也改善了图像生成，SEED-X的图像生成平均分数从0.349提升到0.439，微调后进一步提升到0.658。

理解能力的提升也直接带动了图像生成性能的提高，这说明ImageGen-CoT让模型更好地理解了输入内容，生成更符合要求的图像。

参考资料：

https://arxiv.org/abs/2503.19312

https://www.alphaxiv.org/overview/2503.19312

本文来自微信公众号“新智元”，编辑：英智，36氪经授权发布。

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://www.hmbk.net/news/RVLJpE9A7Y.html

上一篇 > 赋智强韧推动城市安全发展
下一篇 > 南极秦岭站已具备开展越冬考察保障能力