Shiroha-Key

Results 2 issues of Shiroha-Key

使用Nexfort加速diffusers的UNet2DConditionModel。 onediff 1.2.1.dev14 onediffx 1.2.1.dev18+g6b53a83b.d20240815 nexfort 0.1.dev262 第一次生成图像时的autotune过程时间很长 ,在20~40分钟左右,使用O2模式。 ![image](https://github.com/user-attachments/assets/4e3daee8-ab16-4c2f-b163-4fdeb51de92c) 我已经正确设置了这里提到的两个环境变量,但我不太清楚第一个变量发挥的作用。 这里是autotune时的一部分代码,会有一些错误报告,但最后仍能完成。但为何会有一些很夸张大的尺寸?(例如AUTOTUNE nexfort_geglu(36864x640, 640x2560, 640x2560, 2560, 2560)的36864x640 https://gist.github.com/Shiroha-Key/d929c7c3b6401829276e620cd3363a35 报错我在https://github.com/siliconflow/onediff/issues/1057 见到了一样的,在我添加"inductor.optimize_linear_epilogue": False错误不再出现。 总的来说。。他真的很长 且我每次启动服务生成第一张图时都要经历一次。 所以我想问现在基于现在的情况,是什么问题导致了autotune过程这么慢?有没有能够加速过程的方法?或者更好的 离线编译存储结果 在线时加载?我没有找到Nexfort与这些相关的api。

### System Info / 系統信息 ``` PyTorch version: 2.4.1+cu121 Is debug build: False CUDA used to build PyTorch: 12.1 ROCM used to build PyTorch: N/A OneFlow version: path: ['/root/miniforge3/envs/py310-CogVideo/lib/python3.10/site-packages/oneflow'], version:...