Geração do dataset da Wikipedia:
- Fazer o download da versão mais atual do dump da wikipedia;
- Utilizar a versão modificada do script WikiExtractor para transformar o xml em um documento json;
python -m WikiExtractor ptwiki-latest-pages-articles.xml.bz2 --json
- Ler o arquivo json com o comando abaixo ao invés de usar o pandas devido ao tamanho do arquivo:
with open('text/wiki.json') as json_file:
data = json_file.readlines()
data = list(map(json.loads, data))
- Inserir o list gerado em um dataframe;
- Salvar o dataframe em formato csv.