shiwl0329
shiwl0329
我也遇到了。假设拼音特意采用空格分隔,如:ying lun mi an,通过拼音分词能分成ying lun mi an,而不是现在的ying lun mian把mi和an黏在了一块
> 如何对待切分可能有歧义的拼音? > xian = 先/西安, linan = 李楠/临安 > > 是否有可能把所有切分都列出来? 其实我也遇到了。假设拼音特意采用空格分隔,如:ying lun mi an,通过拼音分词能分成ying lun mi an,而不是现在的ying lun mian把mi和an黏在了一块
> 目前只能出一个结果。毕竟这俩你都不能算错。我感觉可以有这几种方法:1 : 人工切分查两次 2: 修改源码冗余编码,不过冗余编码以后不能使用match_phrase了倒是真的 那我想问一下,假设拼音特意采用空格分隔,如:ying lun mi an,通过拼音分词能分成ying lun mi an,而不是现在的ying lun mian把mi和an黏在了一块
@BrikerMan
哦哦,明白了。不过为啥bert用来分类的只取了最后一层的CSL向量接一个全连接,跟论文上说的还不一样
大神,sbert经过了有监督训练之后效果明显优于simcse,中文sbert:https://github.com/renmada/sentence_bert_chinese