shiwl0329 comments

Results 6 comments of


                                            shiwl0329

youxiangongsi 分词异常

我也遇到了。假设拼音特意采用空格分隔，如：ying lun mi an，通过拼音分词能分成ying lun mi an，而不是现在的ying lun mian把mi和an黏在了一块

拼音切分歧义问题

> 如何对待切分可能有歧义的拼音？ > xian = 先/西安， linan = 李楠/临安 > > 是否有可能把所有切分都列出来？其实我也遇到了。假设拼音特意采用空格分隔，如：ying lun mi an，通过拼音分词能分成ying lun mi an，而不是现在的ying lun mian把mi和an黏在了一块

liyanan => tokenizer wrong

> 目前只能出一个结果。毕竟这俩你都不能算错。我感觉可以有这几种方法:1 : 人工切分查两次 2: 修改源码冗余编码，不过冗余编码以后不能使用match_phrase了倒是真的那我想问一下，假设拼音特意采用空格分隔，如：ying lun mi an，通过拼音分词能分成ying lun mi an，而不是现在的ying lun mian把mi和an黏在了一块

[Question] 分类采用bert embedding output_feature

@BrikerMan

[Question] 分类采用bert embedding output_feature

哦哦，明白了。不过为啥bert用来分类的只取了最后一层的CSL向量接一个全连接，跟论文上说的还不一样

期待能出个基于simcse的中文预训练模型

大神，sbert经过了有监督训练之后效果明显优于simcse，中文sbert：https://github.com/renmada/sentence_bert_chinese