namuwikitext
namuwikitext copied to clipboard
Wikitext format dataset of Namuwiki (Most famous Korean wikipedia)
https://github.com/lovit/namuwikitext/blob/b9dcf6f11d7d6989f0e2a4095ee3dd505a38c126/scripts/extract_wikitext_from_json.py#L131-L140 위 코드를 참고하여 다시 문서 단위로 복구하기 위해 heading1을 기준으로(`r"\n\n = [^=]+ =\n\n"` 단위로) 파일을 split해보았습니다. ```python >>> content = open("/path/to/dataset/namuwikitext_20200302.dev").read() >>> import re >>> len(re.split(re.compile(r"\n\n = [^=]+ =\n\n"),...
안녕하세요. 프로젝트 공유해주셔서 감사합니다. 잘 활용하고 있습니다. 간단한 오류인 것 같은데, split 함수에서 begin_marker와 end_marker가 같은 경우에 split이 원하는 동작이 (prefix, sub, suffix의 온전한 분리) 이루어지지 않는 것 같습니다. `e...