nlp-various-tutorials icon indicating copy to clipboard operation
nlp-various-tutorials copied to clipboard

tokenizers 질문

Open tkwoo opened this issue 5 years ago • 0 comments

안녕하세요. 좋은 튜토리얼 감사합니다.

huggingface 에 물어봐야할 것 같긴한데,, 혹시 아시나 해서요. tokenizers training 속도가 느린것 같은데 이유가 뭘까요? 공개된 사이트에서는 GB 단위를 20초 정도에 처리할 수 있다고 하는데 5기가에 30분 정도 걸리더라구요. 왜 그럴까요..?

  1. source 로 빌드하지 않고 pip 로 설치해서 그렇다.
  2. 영어가 아닌 utf8 한국어라서 그렇다.

tkwoo avatar Mar 27 '20 02:03 tkwoo