gichang.lee
gichang.lee
좋습니다!
> issue label 관련하여 제안드립니다. > open issue 개수가 적지 않은데요, 이슈 관리와 가시성을 위해 아래 3가지 label을 사용하면 어떨까요? > > * `on progress` : 작업 진행중 > *...
> 1. 뉴스 말뭉치 만으로도 약 70줄의 코드가 작성되었습니다. 뉴스 말뭉치 포함 13개 말뭉치를 하나의 파일에 모두 포함하는 것이 좋은 선택일지 고민이 됩니다. 말뭉치 구조가 생각지 못했던 상황이네요. 네 저도...
> 2. 13개 말뭉치의 파일 형식이 대부분 JSON 이지만, 일부가 tsv 이기도 합니다. 또한 JSON 내부의 keys 가 다릅니다. 이번 버전 배포 시, 모두의 말뭉치 중 일부만 loader 를 제공하는...
**code1** 첫번째 방법 ```bash pip install mxnet gluonnlp sentencepiece ``` ```python import gluonnlp as nlp vocab = nlp.vocab.BERTVocab.from_sentencepiece("/Users/david/Downloads/spiece", padding_token="[PAD]") with open("vocab.txt", "w", encoding="utf-8") as f: for k, v in vocab.token_to_idx.items():...
**code2** 두번째 방법 ```python from gluonnlp.data import SentencepieceTokenizer sp = SentencepieceTokenizer("spiece") with open("vocab2.txt", "w", encoding="utf-8") as f: for el in sp.tokens: if el[0] == '▁': el = el.replace('▁', '') elif...
**doc_stride 효과** - 만일 max_seq_length가 충분하다면 다음과 같이 데이터를 만듬 > [CLS] 바 ##그 ##너 ##는 괴 ##테 ##의 파 ##우스 ##트를 읽고 무엇을 쓰고 ##자 했 ##는가 ? [SEP]...
**학습 데이터 만들기** - 입력 : `[CLS] question [SEP] context [SEP] [PAD]` - 레이블 : 정답의 시작 위치(int, 토큰 기준 위치 인덱스), 정답의 끝 위치(int, 토큰 기준 인덱스) - 레이블을...
**전처리 코드** - 아래 코드에서 필요한 부분만 가져다 사용 - `transformers.data.processors.squad` - https://huggingface.co/transformers/_modules/transformers/data/processors/squad.html
**원본 데이터** - https://drive.google.com/file/d/16GDoThyxGVDXiF8IzTQtXPckHo_PTv83/view?usp=sharing