MOSS 量化模型后续会支持Windows吗

量化模型需要triton库，但是triton库只有Linux版本，后续是否会改进其他方式兼容Windows呢？

Apr 23 '23 10:04 YIZXIY

确实，希望官方支持windows，我用各种方法试了一天也没能在windows上成功编译triton

Apr 23 '23 11:04 littlestone0806

Duplicate of #68

Apr 23 '23 12:04 piglaker

用wsl2

Apr 23 '23 13:04 JiaJiaJiang

用wsl2

太吃内存

Apr 23 '23 14:04 YIZXIY

用wsl2

太吃内存

确实，刚刚我内存炸了

Apr 23 '23 14:04 JiaJiaJiang

虽然我会用WSL2，但是想要普及这个模型太难了，好多人并不会配置WSL2，我只想做一个windows的一键懒人包，让更多人体验到MOSS

Apr 23 '23 14:04 littlestone0806

改triton这个库的cmake，改了好久，搜遍了github，现阶段没有任何办法。希望官方大大，看能不能用其他库替代triton，我知道的一些LLM的quantization.py是不用triton的

Apr 23 '23 15:04 littlestone0806

改triton这个库的cmake，改了好久，搜遍了github，现阶段没有任何办法。希望官方大大，看能不能用其他库替代triton，我知道的一些LLM的quantization.py是不用triton的

把chatglm-6b的量化库搬过来用可行吗？

Apr 24 '23 00:04 YIZXIY

GPTq量化的llama本来就不用triton，Windows上用没问题

Apr 24 '23 05:04 liuyunrui123

WSL2好难配，昨天晚上三个多小时都在和英伟达驱动和CUDA toolkit斗智斗勇。关键是还没成功

Apr 24 '23 16:04 yukikawas

WSL2好难配，昨天晚上三个多小时都在和英伟达驱动和CUDA toolkit斗智斗勇。关键是还没成功

我记得WSL只需要在Windows系统里装驱动wsl本身不需要驱动（不知道对不对） @TinQlo

Apr 25 '23 00:04 YIZXIY

WSL2好难配，昨天晚上三个多小时都在和英伟达驱动和CUDA toolkit斗智斗勇。关键是还没成功

我记得WSL只需要在Windows系统里装驱动wsl本身不需要驱动（不知道对不对） @TinQlo

我觉得你是对的，符合我看到的现象：装好WSL2后直接就可以用普通用户执行nvidia-smi，返回信息也正确。但是sudo运行就提示找不到指令，这也是为啥我在上面提到和驱动斗智斗勇。

Apr 25 '23 04:04 yukikawas

@TinQlo 参考这个https://zhuanlan.zhihu.com/p/488731878 里面的安装CUDA Toolkit部分，它装完之后不会更新path，要自己加进.bashrc，不过我就算是装好了依然跑不起来，运行着一会儿进程就终止了

Apr 25 '23 08:04 JiaJiaJiang

@TinQlo 参考这个https://zhuanlan.zhihu.com/p/488731878 里面的安装CUDA Toolkit部分，它装完之后不会更新path，要自己加进.bashrc，不过我就算是装好了依然跑不起来，运行着一会儿进程就终止了

感谢你，我成功了，但3090显卡int4说两三句话显存占用16.5GB，每多一句就多1G，看来24G显存不够说10句话的。运行着一会就终止了可能是因为内存不足，加载一会显示killed，WSL2的话需要修改配置，参考 https://blog.csdn.net/weixin_45579994/article/details/112386425 ，我把电脑的32GB内存全分给了它，启动的时候依然拉满，好在没有崩溃。

Apr 25 '23 18:04 yukikawas

@TinQlo 参考这个https://zhuanlan.zhihu.com/p/488731878 里面的安装CUDA Toolkit部分，它装完之后不会更新path，要自己加进.bashrc，不过我就算是装好了依然跑不起来，运行着一会儿进程就终止了

感谢你，我成功了，但3090显卡int4说两三句话显存占用16.5GB，每多一句就多1G，看来24G显存不够说10句话的。运行着一会就终止了可能是因为内存不足，加载一会显示killed，WSL2的话需要修改配置，参考 https://blog.csdn.net/weixin_45579994/article/details/112386425 ，我把电脑的32GB内存全分给了它，启动的时候依然拉满，好在没有崩溃。

我也是32G内存和3090，我修改过wsl的配置，但光是分了20G它就会把我宿主机内存数据搞坏，然后出现各种异常不得不重启电脑，暂时放弃了，等能直接跑在win上的版本

Apr 25 '23 18:04 JiaJiaJiang

https://github.com/linonetwo/MOSS-DockerFile

我在 dockerfile 里把这些问题都解决了,相关笔记 https://onetwo.ren/wiki/#调研GPU上运行的语言模型

Apr 26 '23 10:04 linonetwo

WSL2好难配，昨天晚上三个多小时都在和英伟达驱动和CUDA toolkit斗智斗勇。关键是还没成功

我记得WSL只需要在Windows系统里装驱动wsl本身不需要驱动（不知道对不对） @TinQlo

我觉得你是对的，符合我看到的现象：装好WSL2后直接就可以用普通用户执行nvidia-smi，返回信息也正确。但是sudo运行就提示找不到指令，这也是为啥我在上面提到和驱动斗智斗勇。

你用cunda么。用的话需要copy so库到conda的环境里。

Apr 28 '23 02:04 jerryliang122

WSL2好难配，昨天晚上三个多小时都在和英伟达驱动和CUDA toolkit斗智斗勇。关键是还没成功

我记得WSL只需要在Windows系统里装驱动wsl本身不需要驱动（不知道对不对） @TinQlo

我觉得你是对的，符合我看到的现象：装好WSL2后直接就可以用普通用户执行nvidia-smi，返回信息也正确。但是sudo运行就提示找不到指令，这也是为啥我在上面提到和驱动斗智斗勇。

你用cunda么。用的话需要copy so库到conda的环境里。

没有，用的pyenv。但是不知道是哪里的bug，有一定概率和我宿主机的pyenv冲突

Apr 28 '23 04:04 yukikawas

我也是32G内存和3090，我修改过wsl的配置，但光是分了20G它就会把我宿主机内存数据搞坏，然后出现各种异常不得不重启电脑，暂时放弃了，等能直接跑在win上的版本

我也是32G内存和3090ti，我是把所有内存都分给他了，就还好，只不过运行速度感觉比较慢，一次回复要 30-70s

Apr 28 '23 13:04 linonetwo