CallmeZhangChenchen

Results 34 comments of CallmeZhangChenchen

same me,, but my onnx model can have the same result in trt5 and trt6, trt7 is different

Hi @tairen99 trt6 The way of use is the same as trt7 。 I didn't use onnx-trt, tensort comes with trtexec, you can try。 I feel you should determine what...

在论坛里面找了一个脚本直接将这些文件替换了,多谢 但是还会有这种问题 ,先关了吧

我尝试拿两个结构一样的Lora去做实验, 发现没有成功,出来的结果还是一样的 ``` from diffusers.loaders.lora import LoraLoaderMixin # load_state_dict with assign=True requires torch >= 2.1.0 loraloader = LoraLoaderMixin() # Switch "another" LoRA into UNet def switch_lora(model, lora): unet = model.unet...

哇 成功了!模型初始化Load Lora的时候不能fuse_lora, 用上面的代码就能正常切换了 PS:SDXL的模型不需要这样做,不管enable_cuda_graph是True or False,直接使用set_adapter()的方式可以切换成功,而且时间都是一样的 TODO:适配所有规格的Lora,切换Lora的耗时让用户感知不到

> 性能提升是怎么样的? 你说的是stable-fast 还是切换lora的性能? 都挺不错,不过还是建议你自己尝试一下

经过测试,需要lora_scale的直接这样就可以 text_encoder[key].copy_(value * lora_scale) TODO: 这样切换lora,没有fuse操作,推理的时候加上lora,耗时会由700ms增加到900ms, 需要研究一下fuse,unfuse 操作

嗯,的确有这个问题!

看代码好像是 基础版传进了emb这个变量, 而 vllm 没有, 所以是不是只需要在 vllm infer 的时候 想办法传入 emb 就好了

https://github.com/2noise/ChatTTS/pull/755 有兴趣的话可以参考一下