DiffSynth-Studio 关于 Flux-Kontext 支持多张 kontext

您好，感谢你们开源 DiffSynth-Studio 项目！

我在阅读 flux_image_new.py 中 FluxImageUnit_Kontext 的实现时注意到，当前代码支持输入多张 kontext_images，并将多个 kontext_latent 在非通道维度（dim=1）进行拼接：

kontext_latents = torch.concat(kontext_latents, dim=1)
kontext_image_ids = torch.concat(kontext_image_ids, dim=-2)

这似乎与 Flux-Kontext 官方开源实现（只支持单张图）不完全一致。在我们的测试中，尝试输入多张图像时，输出结果只是简单地将图像融合，整体表现并不协调。

因此我有几个疑问想请教：

再次感谢你们的工作，期待解答！

Jul 14 '25 11:07 Dshijie

@Dshijie

Jul 29 '25 02:07 Artiprocher

@Dshijie 此外，我们发现，直接在输入图像中拼接成一张（1 x N）的图可实现还不错的效果，但这并不是端到端训练过的推理方式，因此还有一点不稳定。一个优化思路是，用多图拼接的形式生成大批数据集，过滤出高质量的数据，用于训练。

Jul 29 '25 02:07 Artiprocher

@Dshijie

是为后续支持多图编辑、多图融合等扩展功能做准备。

这种现象已经观测到了，因此我们认为需要必要的训练才能提高多图编辑的效果。

数据量显然是越多越好，但多图编辑任务的数据集很难构造。

您好，如果多图编辑，例如img1+img_ref+text得到img_new，这个需要重新修改模型进行微调么

Jul 31 '25 08:07 Mr-ind1fferent

@Dshijie 此外，我们发现，直接在输入图像中拼接成一张（1 x N）的图可实现还不错的效果，但这并不是端到端训练过的推理方式，因此还有一点不稳定。一个优化思路是，用多图拼接的形式生成大批数据集，过滤出高质量的数据，用于训练。

Can we use this feature to extend the Flux-Kontext model to sequential model(video model)?

Oct 22 '25 06:10 cxzhou35

关于 Flux-Kontext 支持多张 kontext_images 输入的设计疑问