Charin
Charin
Is this the same as NER?
@heytitle I used to to clean up texts before putting them through embeddings. This might be a good research topic. For practical use, since we are leaning more towards subwords,...
ผมคิดว่า 1. ใช้ _ เพราะมีปัญหาน้อยกว่า ไม่ถูกมองผิดเป็นเครื่องหมายลบ 2. ควรเป็นพหูจน์เพราะไฟล์นั้นๆมีสิ่งของมากกว่าหนึ่ง 3. suffix เพราะส่วนใหญ่เป็น thai เวลาเรากดหาน่าจะอยากหา functional keyword มากกว่า 3.1 เห็นว่าควรใช้ th เพราะตัวหนังสือน้อยกว่า
Can we move these rules somewhere so we can close this?
We'll refactor [thai2transformers](https://github.com/vistec-AI/thai2transformers/) and get back to you within the next month or so. wav2vec2 tutorial for Thai https://github.com/vistec-AI/wav2vec2-large-xlsr-53-th/blob/main/notebooks/wav2vec2_finetuning_tutorial.ipynb Extractive QA https://github.com/vistec-AI/thai2transformers/blob/dev/notebooks/train_question_answering_lm_finetuning.ipynb
@young-geng Thank you! I read you might be training a 3b version. It would be absolutely fantastic if you could somehow consider this proposal for that.