echotxl
echotxl
使用sglang也是报错,显卡2080ti (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0 --port 8000 [Fast-Spark-TTS] 2025-04-03 23:31:42 [INFO] [server:458] >> 启动...
wsl安装vllm同样报错呢 (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --wav2vec_attn_implementation sdpa --llm_attn_implementation sdpa --torch_dtype "float32" --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0 --port 8000 [Fast-Spark-TTS]...
> wsl安装vllm同样报错呢 > > (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --wav2vec_attn_implementation sdpa --llm_attn_implementation sdpa --torch_dtype "float32" --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0...
> sglang会存在这个错误,使用vllm 和torch不会 是的,我改成vllm了,torch速度不行
sglang在Windows下能运行吗
> windows可以用llama cpp,llama cpp也支持GPU环境,GPU版本的llama cpp可以在初始化AsyncFastSparkTTS时设置n_gpu_layers。如果想使用vllm,可以使用wsl2 可以详细说一下吗,大佬,我使用了cuda版的llama cpp,启动时参数选择的--backend llama-cpp --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda,生成语音的速度远低于用纯cpu的方案,甚至生成时间太长等不到结果就直接关掉了,过程中只看到gpu内存又占用,3d占用几乎没有,还是cpu再跑。
> > windows可以用llama cpp,llama cpp也支持GPU环境,GPU版本的llama cpp可以在初始化AsyncFastSparkTTS时设置n_gpu_layers。如果想使用vllm,可以使用wsl2 > > 可以详细说一下吗,大佬,我使用了cuda版的llama cpp,启动时参数选择的--backend llama-cpp --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda,生成语音的速度远低于用纯cpu的方案,甚至生成时间太长等不到结果就直接关掉了,过程中只看到gpu内存又占用,3d占用几乎没有,还是cpu再跑。 看了下,卸载到gpu上0层