Hyunjoong Kim

Results 65 issues of Hyunjoong Kim

(usage scenario) ``` korpora parallel \ --corpus_names aihub open_subtitles_2018 \ --output_dir path/to/train/ \ --target_lang en \ --save_each ``` ``` korpora parallel \ --corpus_names aihub_spoken aihub_conversation \ --output_dir path/to/train/ \ --target_lang...

http://data.statmt.org/cc-100/ 이 내용은 #187 에 반영하도록 하겠습니다

On Progress

```python class Korpus: # ... @classmethod def get_corpus_path(cls, root_dir=None, ...): return "path/to/data_file_path" ```

- open subtitles corpus 의 다운로드 링크가 며칠 째 깨져 있습니다. - 재배포가 가능한 저작권일 경우, 해당 파일을 미러링하여 제공하는 방법을 고려하면 좋을 듯 합니다.

- 데이터셋 설명 및 소개 - corpus_list - license, description 에서 영어로 번역된 메시지 출력

@ratsgo - #156 을 포함한 모두의 말뭉치 로드 파일의 리뷰 중 국립국어원에서 제공하는 안내문 파일이 링크를 최초로 입력 시 다운로드가 되지 않는 문제를 확인하였습니다 [관련 내용](https://github.com/ko-nlp/Korpora/pull/156/files#r521624525) - 모두의 말뭉치의 안내...

- Download from [kaggle](https://www.kaggle.com/bryanpark/jit-dataset), made by [Kakaobrain](https://github.com/kakaobrain/jejueo) - 단어, 문법 어휘의 많은 부분이 공유되는 `표준어-방언` 번역데이터입니다.

- fetch 기능이 없으므로 korpora_modu.py 에 load 기능이 포함된 Loader classes 를 만듭니다. - 각 클래스의 이름은 `ModuXXXKorpus` (e.g `ModuNewsKorpus`) 형식을 따릅니다. | 말뭉치 종류 | ongoing | finished |...

On Progress

어휘 의미 분석 말뭉치는 한 문장 (`form`) 에 대하여 어절 (단어 아님) `word`, 형태소 (`morpheme`), 의미태그 (`WSD`) 가 포함되어 있습니다. 하나의 데이터 (example) 은 다음의 정보로 구성되어야 합니다. ``` -...

train data 만 제공된 말뭉치의 경우 (`random seed`, `ratio`) 를 입력받아 subdata 를 만드는 기능 제공