MOSS-TTSD icon indicating copy to clipboard operation
MOSS-TTSD copied to clipboard

MOSS-TTSD is a spoken dialogue generation model that enables expressive dialogue speech synthesis in both Chinese and English, supporting zero-shot multi-speaker voice cloning, and long-form speech ge...

Results 48 MOSS-TTSD issues
Sort by recently updated
recently updated
newest added

模型经过lora微调后,音色一致性会比之前强。 但是在每次生成的开头,女生音色都会更加尖锐,然后到后面才会好一点,这个问题有没有什么解决办法。

不同文字生成不同的语音,但每次生成的音色都不一致,请问如何固定音色,保证生成的音色是相同的

现在在转换中,会把所有哈哈的文字都转换成自然的笑声,但是在实际使用中,并不是所有的哈哈都要被转换成笑声,例如这个人叫李哈哈,结果就变成了李(笑声),希望能优化一下,谢谢:)

试了一些新模型-v0.7,换了文本用样例音色进行生成,每次生成的结果听了一下,每次生成音频音色都不太一样。给的example.jsonl生成的倒是和样例音色比较接近。

相比于v0.5,说话人切换错误频率过高。测了7条,有5条都出现了错误。 以下是测试数据: {"base_path": "***", "text": "[S1]朋友们大家好呀,欢迎来到咱们的文化闲聊时间,我是你们的主持人小雅。今天啊,咱们要聊一位民国时期的女神级人物,那可是娱乐圈的一股清流啊,凭啥能在美女如云的演艺圈脱颖而出成为传奇呢。[S2]是啊,小雅说得对,这个话题很有意思。我是中文系的李教授,平时啊最爱研究这些文化名人的故事了。今天咱们就一起聊聊这位夏梦女士吧,她的人生简直就是一部活生生的电影。[S1]哇,李教授都这么说了,那咱必须得好好聊聊呀。夏梦这人啊,长得那叫一个美,还被大家叫做东方的赫本呢。那我们就直接开始吧。[S2]好,咱们先说说她的早期经历吧。夏梦打小就气质出众,六岁参加上海那个童摄影比赛就拿头奖了。嗯...我想想啊,十四岁迁居香港后,在玛利诺修院学校就开始演舞台剧了。[S1]哎说到这个,她十七岁加入长城电影公司后,艺名就叫夏梦了。主演禁婚记娘惹这些片子,一下红遍半边天。那、怎么就能这么火呢。[S2]其实啊,她不是光靠脸吃饭的。气质太独特了,清新雅致,就像从画里走出来的东方佳人。照片里她和周总理握手时,那股端庄劲儿啊。[S1]还真是啊,我看过她和毛主席的合照,举止大方,笑容温柔。难怪被称香港西施。可是光外表美就能成传奇吗。[S2]不不不,她内在更厉害。文化程度高,还能在杂志写万字长文。那时候女星读书少,她简直就是异类。演技情商都很强,和人相处特谦逊。[S1]哇,那她挺全才的嘛。呃,听说身高一米七,还爱运动对吧。篮球游泳啥的都擅长,这体质也太好了。[S2]是的是的,身体健美,思想也独立。她那本从影一年的自传,就是深度思考的结晶。可是啊,最难得的还是她那份低调劲儿。[S1]确实。哎,娱乐圈那么乱,她咋就能零绯闻呢。二十一岁嫁给普通商人林葆诚,婚后还继续拼事业。这婚姻有啥秘诀啊。[S2]嗯...这个啊,就是咱们要总结的了。夏梦早期经历的核心在于,美貌只是敲门砖,真正让她闪耀的是那份内外兼修的独特气质。咱先把这个关键点记下,稍作休息,回来再深入下一个话题。", "prompt_audio": "test.WAV", "prompt_text": "[S1]对,这个确实最近炒得很热。[S2]对。[S1]那我们就赶紧开始今天的话题吧。[S2]咱们第一个要聊的呢是这个吉比特的这个分红盛宴嗯,就是说这个公司为什么它可以这么豪横地分红嗯。首先我们要来看一下它这个二零二五年的上半年的业绩为什么可以这么好。[S1]这个其实主要的原因呢就是因为它新上线的两款自研的游戏,嗯一个是这个问剑长生,一个是这个杖剑传说,嗯,这两款游戏表现都非常地亮眼。"} 使用format3格式组织数据能否优化这个问题

首先,由衷感谢各位大佬们夜以继日的辛勤付出,不断精进模型与代码,让我们能持续享受到更强大的功能。 下午看到代码库又有了新的提交,我就迫不及待地下载了最新的模型和还未正式上架的代码来“尝鲜”,以下是一些初步的体验感受: 1、音色克隆大跃进 新版本的音色克隆功能真的强大太多了!与 V0.5 版相比,合成的音色与原声的相似度有了质的飞跃,简直令人惊艳。 2、变调问题显著改善 声音变调的问题也得到了很好的控制,比之前好多了。不过,偶尔在处理长文本(例如单段超过百字以上)时,仍然会有一两个字似乎在变调的边缘,或者声音听起来像是换了个录音环境,虽然还是原来的音色,但会给人一种“后期补录”的感觉,哈哈。 3、中文引号读音的小瑕疵 在处理中文的双引号(“ ”)时,有时会把第一个引号读出一个类似“暗”的发音,这个问题在旧版中似乎没有出现过。 4、超长文本处理疑问 这次更新提到的“训练最大长度支持到 1700 秒”,我进行了一个小测试。我用一篇八千多字、预计时长约 25 分钟的文案来生成音频,但最终生成的音频时长仍然是 20 分钟,和上一版相似。并且,在音频的末尾几分钟出现了声音乱码的情况。不知道是不是我的操作有误,或是代码修改的环节没弄对? 5、音频开头的随机噪音 生成的音频开头,偶尔还是会随机出现 1-2 秒的音乐或噪音。 6、S1 与 S2 的混淆问题 在处理对话场景时,偶尔还是会出现 S1 和...

streamer.py第194行把audio_data传给silence_duration参数了,导致声音克隆失败,而且生成的音频包含prompt text。请留意下。

你们下一步优化和更新的方面回事那些方面呢?