THULAC-Java icon indicating copy to clipboard operation
THULAC-Java copied to clipboard

带特殊字符文本分词异常

Open chenying99 opened this issue 8 years ago • 0 comments

首先,需要了解一些基本事实: 􀂄 中国的小麦依靠自给。

据香港媒体报导,嫩模Jeana(何佩瑜)四处惹是非,结果被其他𡃁模群起围攻,指她整容。

at java.util.Vector.get(Unknown Source) at org.thunlp.thulac.cb.CBTaggingDecoder.segment(CBTaggingDecoder.java:276)

貌似是POCGraph graph对象与句子长度不一致

句子中特殊字符占据两个长度,而POCGraph graph对象少了一个长度

补充:

后面的方法 this.nGramFeature.putValues(sequence, len); 里面用到sequence.charat(i)方法,都会出问题了

chenying99 avatar Jul 25 '17 19:07 chenying99