soynlp icon indicating copy to clipboard operation
soynlp copied to clipboard

띄어쓰기가 잘 되어 있지 않은 데이터에서는 구가 명사로 뽑히는 경향이 있음

Open lovit opened this issue 7 years ago • 1 comments

끝나고해요끝나고 해요 로 기술해야 하지만, 띄어쓰기를 지키지 않았고, -해요는 positive noun features 혹은 용언으로 추출되어 끝나고를 명사로 인식하게 만든다.

띄어쓰기가 잘 되어 있지 않은 데이터에서는 명사로 뽑힌 어절이 Noun +[Josa] + Verb or Adj 인지 확인할 필요가 있다

lovit avatar Nov 12 '18 19:11 lovit

대화체의 특성 때문에 용언/부사도 명사로 자주 추출되므로 pos extractor 에서 용언/부사에 포함되는 명사는 제거할 것

lovit avatar Nov 14 '18 00:11 lovit