Hyunjoong Kim
Hyunjoong Kim
위 commit 및 파일 형식을 정리한 comment 를 통하여 세 가지 논의사항이 생겼습니다. 1. 뉴스 말뭉치 만으로도 약 70줄의 코드가 작성되었습니다. 뉴스 말뭉치 포함 13개 말뭉치를 하나의 파일에 모두 포함하는...
> 말뭉치 구조가 생각지 못했던 상황이네요. 네 저도 기존 말뭉치들처럼 파일 1개당 하나의 말뭉치를 처리하는 쪽으로 개발하면 좋을 것 같다는 생각입니다. 위의 커밋을 통하여 다음을 반영하였습니다.
> 네 저도 정제 스크립트가 필요없는 일부 말뭉치에 대해서만 loader 제공에 동의합니다. 코포라의 기능은 `(1) 말뭉치를 다운로드` `(2) 데이터 그대로 읽어들이기` 에 한정돼야 한다고 생각합니다. 이 범위를 넘어서는 것들은 별도...
Manual loading test code ``` pip install colored ``` ```python import sys sys.path.insert(0, '../') import contextlib import os import sys from colored import fg, bg, attr from Korpora.korpus_modu_news import ModuNewsKorpus...
> URL이 복구된 것으로 보입니다. > #189 를 추가하면서, open-subtitles 데이터 다운로드를 확인했습니다. 확인 감사합니다
늦게 답변 드립니다. ngram 을 하나의 단어로 묶는 것은 (1) 품사 판별을 하기 전에 tagger 단에서 해결하거나, (2) 후처리를 통하여 연속된 ('main', 'board') 라는 단어를 'main - board' 로 묶는...
"필립w,실러 -> 필립w실러" 의 경우는, "필립w실러"라는 대표어가 다양한 단어들로 표현되기 때문이라 생각되는데, "필립w,실러" 가 사용자 사전에 추가되지 않았다면 애초에 base tagger 가 잘못 잘라버릴 것으로 생각됩니다. 이 과정은 후처리 보다는...
학습 함수 앞, 뒤의 시간을 측정하면 됩니다. ```python from soyspacing.countbase import CountSpace from time import time process_time = time() corpus_fname = '../demo_model/134963_norm.txt' model = CountSpace() model.train(corpus_fname) process_time = time() -...
학습시간과 메모리 사용양에 대한 대략적인 설명이 있으면 확실히 도움이 되겠네요. 이 부분은 이후에 보강하도록 하겠습니다. 학습 과정이 str 의 slicing 과 count 로만 이뤄졌기 때문에 문서 내 글자 수에 거의...
안녕하세요. 이 방법은 어절 단위로 띄어쓰기 정보를 학습하는 heuristic 방법이라서 인풋 파일을 문장 단위로 줄바꿈을 하여도 문단 단위로 줄바꿈을 하여도 차이가 크지 않을것 같습니다. 단, 이 방법은 같은 어절이 여러...