Hyunjoong Kim
Hyunjoong Kim
`corpus_names` 와 `target_lang` 이 적절한지 확인하는 함수 필요
#187 에서 이 기능지원을 마무리합니다.
스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다. @hwiorn 님은 어떻게 생각하시나요?
> 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. @hwiorn 님의 생각에...
on progress 는 누군가 해당 이슈 작업을 진행하면 레이블을 달아서 중복 작업을 방지하자는 의도이신가요? 저는 좋은 장치인듯합니다. 작업자들간의 혼란을 줄여줄 수 있는 방법이라 생각합니다
그럼 이건 우리 곧바로 적용해봐요 세 개의 레이블로 우선 시작해보고, 디테일하게 항목을 나눌 필요가 생기면 그때 논의해봐요
이후에 커멘트 추가할 때마다 새로운 내용이 아래로 밀릴테니, 정리된 내용은 맨 윗 커멘트에서 수정으로 업데이트 할게요. 중복되는 커멘트는 삭제하였습니다.
#181 해결 시 완료됩니다.
| en | ko | 파일 형식 | | --- | --- | --- | | NIKL_CoLA(v1.0) | 국립국어원 문법성 판단 말뭉치 (버전 1.0) | 4 개의 tsv 파일로 제공...
위 commit 은 다음의 기능을 제공합니다. ```python from Korpora.korpus_modu import ModuNewsKorpus news_corpus = ModuNewsKorpus(['path/to/NIKL_NEWSPAPER(v1.0)/NPRW1900000013.json']) print(news_corpus.train) ``` ``` 모두의 말뭉치: 뉴스 말뭉치: size=13581 - 모두의 말뭉치: 뉴스 말뭉치.name : list[str] -...