lovit / kowikitext

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Ko-wikitext

Wikitext format Korean corpus

한국어 위키의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.

Corpus size

  • train : 14528095 lines (868230 articles)
  • dev : 76788 lines (4385 articles)
  • test : 70774 lines (4386 articles)

To fetch data, run below script. Then three corpus, train / dev / test files are downloaded at ./data/

python fetch.py

This corpus is licensed with CC-BY-SA 3.0 which kowiki is licensed. For detail, visit https://www.creativecommons.org/licenses/by-sa/3.0/

Fetch and load using Korpora

Korpora is Korean Corpora Archives, implemented based on Python. We will provide the fetch / load function at Korpora

이 코퍼스는 Korpora 프로젝트에서 사용하는 기능을 제공할 예정입니다.

from Korpora import Korpora

kowikitext = Korpora.load('kowikitext')

# or
Korpora.fetch('kowikitext')

License

CC-BY-SA 3.0 which kowiki dump dataset is licensed

About


Languages

Language:Python 100.0%