Hyunjoong Kim

Results 60 comments of Hyunjoong Kim

Error message 를 수정하지 않아서 어떤 오류인지 알아보시기 어려웠을거라 생각합니다. 해당 에러는 corpus 를 만들 때 이용한 텍스트 파일의 주소가 틀렸을 때 발생하는 에러입니다. 해당 파일 주소를 다시 한 번...

명사 추출 방법이 명사의 오른쪽에 등장하는 조사 분포를 이용하기 때문에 알려주신 정보만으로는 정확히 원인을 알지 못합니다. 만약 데이터에서 "고령화" 라는 단어가 여러 개의 조사와 함께 사용된 적이 거의 없다면 (하나의...

저도 감사합니다. Hyunjoong Kim github : https://github.com/lovit/ blog : https://lovit.github.io/ 2020년 2월 20일 (목) 오전 11:48, limth85 님이 작성: > 말씀하신대로 '고령화'에 다른 조사들도 붙여보니 추출이 되네요. 감사합니다! > >...

- [ ] cc-100 corpus 의 다운로드 속도가 빠른 편이 아닙니다. mirroring 이 가능한지 알아봅니다.

cc-100 데이터는 `LANG.txt.xz` 형식으로 제공되며, `xz` 파일을 unpack 하기 위해 `lzma` Python package 를 이용합니다. `pyenv`를 이용할 때 다음의 오류가 발생할 수 있습니다. ``` from _lzma import * ModuleNotFoundError: No...

- 데이터 통계 | file | size | num lines | num words | num characters | | --- | --- | --- | --- | --- | | `ko.txt.xz`...

제안 감사합니다. 확실히 데이터가 사용되는 예시가 추가되면 태스크를 처음 보시는 분들도 쉽게 태스크를 이해하실 수 있겠네요. 다음 버전 배포 시 적극적으로 고려하겠습니다. 좋은 의견 정말 감사합니다.

`WSD` 의 의미 태그의 정합성에 대하여 확인이 필요합니다. 아래의 예시에서 `김태환` 이란 단어의 `sense_id` 는 777 입니다. 한 단어에 대하여 의미가 하나일 경우 `sense_id` 가 1, 한 단어에 대하여 의미가...

@hwaranlee 제보해 주셔서 감사합니다. 해당 내용 #187 에서 반영하도록 하겠습니다

(usage scenario) ``` korpora parallel \ --corpus_names jejueo \ --output_dir path/to/train/ \ --target_lang ko-jeju # or korpora parallel \ --corpus_names jejueo \ --output_dir path/to/train/ \ ```