Hyunjoong Kim comments

Results 60 comments of


                                            Hyunjoong Kim

[CLI] 번역 모델 학습용 병합 말뭉치 생성 기능 제공

`corpus_names` 와 `target_lang` 이 적절한지 확인하는 함수 필요

[CLI] 번역 모델 학습용 병합 말뭉치 생성 기능 제공

#187 에서 이 기능지원을 마무리합니다.

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다.

스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다. @hwiorn 님은 어떻게 생각하시나요?

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다.

> 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. @hwiorn 님의 생각에...

Conventions

on progress 는 누군가 해당 이슈 작업을 진행하면 레이블을 달아서 중복 작업을 방지하자는 의도이신가요? 저는 좋은 장치인듯합니다. 작업자들간의 혼란을 줄여줄 수 있는 방법이라 생각합니다

Conventions

그럼 이건 우리 곧바로 적용해봐요 세 개의 레이블로 우선 시작해보고, 디테일하게 항목을 나눌 필요가 생기면 그때 논의해봐요

Conventions

이후에 커멘트 추가할 때마다 새로운 내용이 아래로 밀릴테니, 정리된 내용은 맨 윗 커멘트에서 수정으로 업데이트 할게요. 중복되는 커멘트는 삭제하였습니다.

외국분들을 위해 fully translated readme 제공

#181 해결 시 완료됩니다.

모두의 말뭉치 loader

| en | ko | 파일 형식 | | --- | --- | --- | | NIKL_CoLA(v1.0) | 국립국어원 문법성 판단 말뭉치 (버전 1.0) | 4 개의 tsv 파일로 제공...

위 commit 은 다음의 기능을 제공합니다. ```python from Korpora.korpus_modu import ModuNewsKorpus news_corpus = ModuNewsKorpus(['path/to/NIKL_NEWSPAPER(v1.0)/NPRW1900000013.json']) print(news_corpus.train) ``` ``` 모두의 말뭉치: 뉴스 말뭉치: size=13581 - 모두의 말뭉치: 뉴스 말뭉치.name : list[str] -...