ShijieDeng
ShijieDeng
### 起始日期 | Start Date _No response_ ### 实现PR | Implementation PR _No response_ ### 相关Issues | Reference Issues _No response_ ### 摘要 | Summary 目前微调,默认的是单张图片,但是V2.6已经支持多图的问答了,finetune/dataset.py里还是只支持单张图片的加载,请问可不可以实现多图的微调? ### 基本示例 | Basic...
您好,感谢你们开源 DiffSynth-Studio 项目! 我在阅读 [flux_image_new.py](https://github.com/modelscope/DiffSynth-Studio/blob/main/diffsynth/pipelines/flux_image_new.py) 中 FluxImageUnit_Kontext 的实现时注意到,当前代码支持输入多张 kontext_images,并将多个 kontext_latent 在非通道维度(dim=1)进行拼接: ```python3 kontext_latents = torch.concat(kontext_latents, dim=1) kontext_image_ids = torch.concat(kontext_image_ids, dim=-2) ``` 这似乎与 Flux-Kontext 官方开源实现(只支持单张图)不完全一致。在我们的测试中,尝试输入多张图像时,输出结果只是简单地将图像融合,整体表现并不协调。 因此我有几个疑问想请教: 1. 当前支持多张 kontext_images 的设计初衷是什么?是为后续支持多图编辑、多图融合等扩展功能做准备吗? 2....