ericbrasiln / Anais-Anpuh

Projeto de script para web scraping da pagina de Anais da Anpuh

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

DOI:10.13140/RG.2.2.34653.03048 made-with-python MIT license

Anais-Anpuh

Projeto de script para web scraping da página de Anais da Associação Nacional de História - Anpuh. Parte de projeto de História Digital desenvolvido no colegiado do curso de Licenciatura em História (CCLHM) da Unilab, campus dos Malês, sob coordenação do professor Eric Brasil em parceria com o Laboratório de Humanidades Digitais da Ufba.

O Script Anais-Anpuh realiza a raspagem dos papers em pdf de todos os Simpósios Nacionais da Anpuh entre 1963 até 2017 (disponíveis atualmente na site).


A ferramenta foi desenvolvida apenas para pesquisas acadêmicas, sem fins lucrativos.


Esse script foi pensado como uma ferramenta metodológica da pesquisa em humanidades digitais. Sua criação é fruto das reflexões e experiências empíricas de historiadores e sociológos que têm enfrentado o desafio de fazer ciências humanas no mundo digital. Defendemos a importância da apropriação, uso, desenvolvimento e aprimoramento de ferramentas digitais para as humanidades, assim como a urgência na sofisticação teórica, metodológica e epistemológica sobre as chamadas Humanidades Digitais.

É crescente o número de repositórios de fontes e dados on-line, assim como o acesso, busca, pesquisa e, muitas vezes, dependência de pesquisadores/as a eles. Os Simpósios Nacionais da Anpuh, que acontecem bienalmente, têm reunido importantes reflexões sobre as mais variadas perspectivas historiográficas. Por conseguinte, os anais de cada evento constituem um importante repositório para pesquisas nos mais variados campos de estudo.


Índice

Instalação

Para executar o Script Anais-Anpuh, vc precisa acessar a pasta da ferramenta no GitHub. Clone ou faça download do repositório e salve na pasta que deseja que os resultados e seus respectivos arquivos sejam armazenados. Antes de executar o script, é preciso preparar seu computador, como mostramos abaixo.

Python

A ferramenta consiste num script escrito em Python 3.8. Esta é uma linguagem de programação que te permite trabalhar rapidamente e integrar diferentes sistemas com maior eficiência. Para executar o arquivo .py é preciso instalar o Python3 em seu computador.

Clique aqui para um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.

Após a instalação, vc pode executar o arquivo .py direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.

Exemplo de como executar utilizando o terminal do Linux, após instalar o Python3.8:

  1. Acesse o diretório em que o arquivo .py está salvo:
    $ cd user/local
  2. Instale as bibliotecas requeridas:
    $ pip3 install -r requirements.txt
  3. Execute o arquivo usando Python3.8
    $ python3.8 script-anais-anpuh.py

Bibliotecas e módulos

  • urllib.requests: módulo do Python que ajuda a acessar urls. Saiba mais.
  • os: módulo do Python que permite manipular funções do sistema operacional. Saiba mais.
  • bs4: Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML.
  • re: Regular Expressions é um módulo do Python para operar com expressões regulares.
  • pandas: Pandas é uma biblioteca escrita em Python para manipulação e análise de dados.
  • wget: Wget é uma biblioteca escrita em Python para realizar downloads.

Resultados

O script retorna para o usuário todos os pdfs disponíveis em todas as páginas de todos os Simpósios Nacionais da Anpuh desde 1963 até 2017. São criadas pastas com o número de cada evento para o armazenamento dos arquivos em PDF.

É importante notar que muitos papers não estão com pdf disponível no site, assim como nas edições mais antigas encontramos arquivos que contém vários papers num único PDF.

O script também gera um arquivo CSV (comma-separated values) contendo os seguintes valores para cada paper: Autor(es)/Instituições,Título, Tipo, Evento, Ano, Link do Arquivo. Esse arquivo pode ser aberto como uma planilha e trabalhado em banco de dados.

exemplo de csv

O script está funcionando perfeitamente. Qualquer alteração no site percebida pelos usuários ou sugestões de aprimoramento são bem vindas.

Licença

MIT licensed

Copyright (C) 2020 Eric Brasil, Gabriel Andrade, Leonardo F. Nascimento, Vitor Mussa, LABHD-UFBA

About

Projeto de script para web scraping da pagina de Anais da Anpuh

License:MIT License


Languages

Language:Python 100.0%