Hyunjoong Kim issues

Results 65 issues of


                                            Hyunjoong Kim

PMI 함수의 위치 변경

- PMI 는 현재 1) 연관어를 추출하는데 이용되며, 이후로 2) embedding 에 이용될 예정 - `soynlp.word` 는 word extraction, ngram extraction 처럼 단어를 추출하는 기능들이 제공. PMI 는 계층이 맞지...

Noun Extractor refactoring

## 주요 작업 - `v1`, `v2` 에 공통으로 작성된 부분의 통합 - noun tokenizer 로 연결 - input: documents - output: 문서 내 명사열 ## 세부 작업 - [x] 리팩토링...

Unicodedata 를 이용한 normalizer, decomposer 수정

(1) 속도 테스트와 (2) 종성에 받침이 없는 경우 decomposer return type 통일할 방법을 고려해야 함 ```python import unicodedata s = '예시단어' # decompose d = unicodedata.normalize('NFD',s) print(len(d)) # 9 #...

Noun Extractor: "N+화" 추출

"고령"은 명사로 추출되었는데, "고령화"가 명사로 추출되지 않은 경우 발생. "[Noun]+화" 처럼 명사의 의미를 확장하는 접미사 정보를 활용하여 "고령화"가 독립적인 어절을 이룬다 하더라도 이를 추출할 수 있는 기능 제공

'ㅆㅡㄹㅐㄱㅣ' 로 입력된 글자를 '쓰래기' 로 정규하하여 처리

normalizer 에서 자음/모음이 분리된 sequence 를 한글로 고쳐서 처리하면 `ㅆㅡㄹㅐㄱㅣ`에 대해서도 품사 판별이 가능

Lemmatizer 의 속도 개선

여러 개의 if 때문에 lemma_candidate 의 속도가 매우 느림. 개선이 필요

어절이 명사로 추출되는 경우

noun extractor v2 에서 아래 부분 때문에 어절 자체가 명사로 추출되는 경향이 있음 ln 348: if ((end > self.max_frequency_when_noun_is_eojeol) and (pos >= neg) ): pos > neg 혹은 pos >...

문맥정보를 학습하기 위해 단어 (조사, 어미 제외) 간 correlation 학습

#75 에 언급된 것처럼 `잘잤어요`에서 (`잘/Adverb`, `자/Verb`) 의 상관성이 높다거나, (`치킨/Noun`, `시키/Verb`) 의 상관성이 (`치킨/Noun`, `시키/Noun`) 보다 높다는 걸 학습할 수 있는 모듈이 필요

띄어쓰기가 잘 되어있지 않은 데이터에서 두 어절과 어간이 혼동되는 경우

('잘잤어요', Predicator(frequency=4248, lemma=[('잘잘', 'ㅆ어요')])) `잘잘다/Adjective` 는 거의 이용되지 않고, `잘/Adverb` 과 `자/Verb` 의 빈도수가 높고, `잘/Adverb` 와 `자/Verb` 의 상관성이 높음을 바탕으로 `잘잤어요`를 `잘/Adverb + 자/Verb + 았어요/Eomi` 로 인식해야...

띄어쓰기가 잘 되어 있지 않은 데이터에서는 구가 명사로 뽑히는 경향이 있음

`끝나고해요` 는 `끝나고 해요` 로 기술해야 하지만, 띄어쓰기를 지키지 않았고, `-해요`는 positive noun features 혹은 용언으로 추출되어 `끝나고`를 명사로 인식하게 만든다. 띄어쓰기가 잘 되어 있지 않은 데이터에서는 명사로 뽑힌 어절이...