KoBERTScore icon indicating copy to clipboard operation
KoBERTScore copied to clipboard

BERT model 별 best layer 를 선정하기 위한 Korean STS 데이터 확보

Open lovit opened this issue 5 years ago • 3 comments

배경

  • 언어 별로 성능이 가장 좋다고 알려진 BERT 계열 모델이 있으며, 각 모델 별로 best performance 를 보이는 layer 가 다름

image

  • 이는 아래처럼 evaluation data 와 BERTScore 와의 correlation 을 바탕으로 결정

image

문제

  • 그러나 한국어에 대해서는 유의미한 STS 데이터를 대량으로 확보하기 어렵다.
    • Kakaobrain 의 KorSTS 는 STS 데이터를 번역기를 통하여 번역한 데이터이며
    • 학습데이터의 양이 약 6천으로 매우 작다. 참고

lovit avatar Sep 24 '20 07:09 lovit

lovit avatar Sep 24 '20 07:09 lovit

  • SemEval tasks 에 대한 개요는 다음의 링크를 참고
    • https://en.wikipedia.org/wiki/SemEval

lovit avatar Sep 24 '20 07:09 lovit

도메인 확보 방법
뉴스 기사 확보된 뉴스 기사에서 샘플링
뉴스 댓글 Korpora hate speech 에서 샘플링
아이돌 커뮤니티 문서 확보된 커뮤니티 문서에서 샘플링
청와대 청원 데이터 Korpora 의 korean_petitions 에서 각 섹션별로 샘플링
쇼핑 관련 블로그성 글 (뽐뿌) https://github.com/lovit/ppomppu_scraper

lovit avatar Oct 05 '20 19:10 lovit