wmodanez / electra

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

electra

Geração do dataset da Wikipedia:

  1. Fazer o download da versão mais atual do dump da wikipedia;
  2. Utilizar a versão modificada do script WikiExtractor para transformar o xml em um documento json;
   python -m WikiExtractor ptwiki-latest-pages-articles.xml.bz2 --json
  1. Ler o arquivo json com o comando abaixo ao invés de usar o pandas devido ao tamanho do arquivo:
with open('text/wiki.json') as json_file:      
    data = json_file.readlines()
    data = list(map(json.loads, data))
  1. Inserir o list gerado em um dataframe;
  2. Salvar o dataframe em formato csv.

About


Languages

Language:Jupyter Notebook 73.3%Language:Python 26.7%