echotxl comments

Results 8 comments of


                                            echotxl

wsl中安装llama cpp cuda调用bug，Warming up...失败，服务启动失败

使用sglang也是报错，显卡2080ti (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0 --port 8000 [Fast-Spark-TTS] 2025-04-03 23:31:42 [INFO] [server:458] >> 启动...

wsl中安装llama cpp cuda调用bug，Warming up...失败，服务启动失败

wsl安装vllm同样报错呢 (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --wav2vec_attn_implementation sdpa --llm_attn_implementation sdpa --torch_dtype "float32" --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0 --port 8000 [Fast-Spark-TTS]...

wsl中安装llama cpp cuda调用bug，Warming up...失败，服务启动失败

显卡是2080ti

wsl中安装llama cpp cuda调用bug，Warming up...失败，服务启动失败

> wsl安装vllm同样报错呢 > > (tts) echo@DESKTOP-07VNMO4:~/Fast-Spark-TTS$ python server.py --model_path Spark-TTS-0.5B --backend sglang --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda --wav2vec_attn_implementation sdpa --llm_attn_implementation sdpa --torch_dtype "float32" --max_length 32768 --llm_gpu_memory_utilization 0.6 --host 0.0.0.0...

wsl中安装llama cpp cuda调用bug，Warming up...失败，服务启动失败

> sglang会存在这个错误，使用vllm 和torch不会是的，我改成vllm了，torch速度不行

请问大家是windows在运行还是 Ubuntu？

sglang在Windows下能运行吗

请问大家是windows在运行还是 Ubuntu？

> windows可以用llama cpp，llama cpp也支持GPU环境，GPU版本的llama cpp可以在初始化AsyncFastSparkTTS时设置n_gpu_layers。如果想使用vllm，可以使用wsl2 可以详细说一下吗，大佬，我使用了cuda版的llama cpp，启动时参数选择的--backend llama-cpp --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda，生成语音的速度远低于用纯cpu的方案，甚至生成时间太长等不到结果就直接关掉了，过程中只看到gpu内存又占用，3d占用几乎没有，还是cpu再跑。

请问大家是windows在运行还是 Ubuntu？

> > windows可以用llama cpp，llama cpp也支持GPU环境，GPU版本的llama cpp可以在初始化AsyncFastSparkTTS时设置n_gpu_layers。如果想使用vllm，可以使用wsl2 > > 可以详细说一下吗，大佬，我使用了cuda版的llama cpp，启动时参数选择的--backend llama-cpp --llm_device cuda --tokenizer_device cuda --detokenizer_device cuda，生成语音的速度远低于用纯cpu的方案，甚至生成时间太长等不到结果就直接关掉了，过程中只看到gpu内存又占用，3d占用几乎没有，还是cpu再跑。看了下，卸载到gpu上0层