syoka comments

Results 22 comments of


                                            syoka

请问ArtistsGallery_Zho这个节点是做什么的呢？

- +1 , 我也很好奇，看起来像是作者枚举了一些常见的画风，然后把这些画风名字作为提示词风格关键字拼接进去了 - I'm also quite curious. It seems like the author has listed some common artistic styles and then concatenated the names of these styles as prefix...

Linux 环境下，按照python3.8版本安装，dlib会报错

try this : ``` pip install --upgrade pip setuptools wheel pip install dlib==19.24.0 ```

ValueError(\"Columns must be same length as key\")\nValueError: Columns must be same length as key\n", "source": "Columns must be same length as key", "details": null}

I use openAI GPT-4o-mini，after I reduce chunks size from 1000 to 200 and decrease overlay to 10. it works for me! ``` chunks: size: 200 overlap: 10 group_by_columns: [id] #...

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

如果你的场景支持独立部署，那么你可以起一个docker，然后走http的api调用。如果你的场景只想部署一个应用，那么你就需要把api_v2代码中引用到的所有包带进去，或者说可以踢掉train和webui相关的代码（包含去掉tool中的降噪，切割，asr标记等）考虑到代码融合可能和你本地项目有大量的冲突，从可维护性角度来说，第一种独立部署会更好。推理速度的话：api_v2就可以了，此外如果你想只用底模，只根据不同参考音进行切换，需要改动一下代码将prompt_cache改为一层的结构，在切换音色场景可以优化0.2s左右，推理的速度4090基本都是80～100it/s，半精度可以到130it/s。如果还要再快可以考虑onnx改造的。

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

> 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` 感谢补充，我看到是prompt_sematic设置的时候，引用到了vits模型。prompt模型存储的是参考语音的sematic缓存，代码中仅缓存了上一次参考音的，切换有0.8s的耗时，补充下：我的配置是4090。想了解下这个580it/s是怎么跑出来的，民用4090或者A10这种应该跑不到这么高吧... 我压测过接口，生成15字大概在1400ms，如果本文数量多，增大batch_size确实可以并行减少耗时，但我场景是任意标点切分，这是基于上游LLM的流式输出切分的，如果能像fishspeech达到800ms，那么我觉得就很棒了。目前还没摸索到方法，如果有可以分享给我么？

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

> > > 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` > > > > > > 感谢补充，我看到是prompt_sematic设置的时候，引用到了vits模型。prompt模型存储的是参考语音的sematic缓存，代码中仅缓存了上一次参考音的，切换有0.8s的耗时，补充下：我的配置是4090。想了解下这个580it/s是怎么跑出来的，民用4090或者A10这种应该跑不到这么高吧... 我压测过接口，生成15字大概在1400ms，如果本文数量多，增大batch_size确实可以并行减少耗时，但我场景是任意标点切分，这是基于上游LLM的流式输出切分的，如果能像fishspeech达到800ms，那么我觉得就很棒了。目前还没摸索到方法，如果有可以分享给我么？ > > 你好，为什么我4090显卡使用v2版本的14字生成音频要2.5s左右啊，然后v1的只要1.4s左右。哪里有问题吗？谢谢解答你有改动过源码么？你的配置信息发一下，还有就是api请求的参数

[BUG] 2.6版本默认绑定flash_atten，无法取消，并且目前并没有提供对应flash_att的版本和安装示例。

> 在mac下已经解决了，输出博客：https://bothsavage.github.io/article/240810-minicpm2.6 > > 提交pr：#461 > > 修改web_demo_2.6.py文件 > > ``` > # fix the imports > def fixed_get_imports(filename: Union[str, os.PathLike]) -> list[str]: > imports = get_imports(filename) > if not...

syoka

请问ArtistsGallery_Zho这个节点是做什么的呢？

Linux 环境下，按照python3.8版本安装，dlib会报错

ValueError(\"Columns must be same length as key\")\nValueError: Columns must be same length as key\n", "source": "Columns must be same length as key", "details": null}

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

请教一下，如果只想使用TTS功能、克隆，想整合到自己的项目中，应该怎么合并呀？现在哪一种方式运行推理速度最快，并且效果不差

[BUG] 2.6版本默认绑定flash_atten，无法取消，并且目前并没有提供对应flash_att的版本和安装示例。

Kong manager not connecting to kong admin API

Kong manager not connecting to kong admin API

【求助】api_v2.py方式内容有英文报错以及内容过短直接变成参考音频内容