SenseVoice icon indicating copy to clipboard operation
SenseVoice copied to clipboard

SenseVoiceSmall微调是否支撑增加事件/情绪/语言类型

Open Danyuhui opened this issue 1 year ago • 6 comments

SenseVoiceSmall微调是否支撑增加事件/情绪/语言类型? 经查阅源代码后发现funast/models/sensevoice/model.py中line 640-647中给出了情绪、语言的编码字典,但并没有事件相关的,想请问可以通过微调增加模型能检测的事件/情绪/语言吗?

Danyuhui avatar Aug 06 '24 11:08 Danyuhui

SenseVoice预留了specialtoken进行功能扩展,使用[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

gaochangfeng avatar Aug 13 '24 03:08 gaochangfeng

SenseVoice预留了specialtoken进行功能扩展,使用[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

大佬,我不太理解为什么使用SPECIAL_TOKEN_15之后的token进行扩展呢? @gaochangfeng

rookie0607 avatar Dec 10 '24 02:12 rookie0607

SenseVoice预留了specialtoken进行功能扩展,使用[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

大佬,我不太理解为什么使用SPECIAL_TOKEN_15之后的token进行扩展呢? @gaochangfeng

为官方功能扩展预留,且15前部分token曾经使用过但后来废弃,可能对自定义的扩展训练产生影响

gaochangfeng avatar Dec 10 '24 02:12 gaochangfeng

SenseVoice预留了specialtoken进行功能扩展,使用[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ]查看, 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

大佬,我不太理解为什么使用SPECIAL_TOKEN_15之后的token进行扩展呢? @gaochangfeng

为官方功能扩展预留,且15前部分token曾经使用过但后来废弃,可能对自定义的扩展训练产生影响

明白了,多谢。

rookie0607 avatar Dec 10 '24 02:12 rookie0607

@gaochangfeng 请问下如果新增的类型超过了预留词表 是要重新训练BPE模型吗?

heheda166 avatar Feb 24 '25 11:02 heheda166

@gaochangfeng 请问下如果新增的类型超过了预留词表 是要重新训练BPE模型吗?

需要重新配置tokenizer来增加新的special token,同样由于词表大小发生了变化,需要修改输出的线性层维度

gaochangfeng avatar Feb 24 '25 11:02 gaochangfeng