nlp-various-tutorials
nlp-various-tutorials copied to clipboard
tokenizers 질문
안녕하세요. 좋은 튜토리얼 감사합니다.
huggingface 에 물어봐야할 것 같긴한데,, 혹시 아시나 해서요. tokenizers training 속도가 느린것 같은데 이유가 뭘까요? 공개된 사이트에서는 GB 단위를 20초 정도에 처리할 수 있다고 하는데 5기가에 30분 정도 걸리더라구요. 왜 그럴까요..?
- source 로 빌드하지 않고 pip 로 설치해서 그렇다.
- 영어가 아닌 utf8 한국어라서 그렇다.