namuwikitext issues

Results 2 namuwikitext issues

Sort by recently updated

데이터셋을 문서 단위로 복구하는 방법

https://github.com/lovit/namuwikitext/blob/b9dcf6f11d7d6989f0e2a4095ee3dd505a38c126/scripts/extract_wikitext_from_json.py#L131-L140 위 코드를 참고하여 다시 문서 단위로 복구하기 위해 heading1을 기준으로(`r"\n\n = [^=]+ =\n\n"` 단위로) 파일을 split해보았습니다. ```python >>> content = open("/path/to/dataset/namuwikitext_20200302.dev").read() >>> import re >>> len(re.split(re.compile(r"\n\n = [^=]+ =\n\n"),...

jeongukjae

extract_wikitext_from_json.py 함수 split function에서 begin_marker, end_marker 같은 경우에 split이 제대로 되지 않는 문제

안녕하세요. 프로젝트 공유해주셔서 감사합니다. 잘 활용하고 있습니다. 간단한 오류인 것 같은데, split 함수에서 begin_marker와 end_marker가 같은 경우에 split이 원하는 동작이 (prefix, sub, suffix의 온전한 분리) 이루어지지 않는 것 같습니다. `e...

dylangim20

namuwikitext
namuwikitext copied to clipboard

Metadata

데이터셋을 문서 단위로 복구하는 방법

extract_wikitext_from_json.py 함수 split function에서 begin_marker, end_marker 같은 경우에 split이 제대로 되지 않는 문제

← Metadata

Owner

Metadata

namuwikitext namuwikitext copied to clipboard

Metadata

데이터셋을 문서 단위로 복구하는 방법

extract_wikitext_from_json.py 함수 split function에서 begin_marker, end_marker 같은 경우에 split이 제대로 되지 않는 문제

← Metadata

Owner

Metadata

namuwikitext
namuwikitext copied to clipboard