andreslucena / congreso_datos_diputado

Congreso: Datos diputado

Home Page:https://morph.io/andreslucena/congreso_datos_diputado

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Este script parsea una de las webs de congreso.es y por cada diputado en el Congreso guarda:

  • su id unico en la web del Congreso
  • su nombre y apellidos
  • la URL de su perfil en la web del Congreso
  • la URL de la foto de su perfil en la web del Congreso
  • la URL a la Declaración de Bienes y de Actividades
  • El cargo que tiene (Diputado o Diputada)
  • La posición en sector, fila y butaca
  • Su correo electrónico
  • El partido y grupo parlamentario (si tiene alguno) al que pertenece
  • Su curriculum
  • Su fecha de nacimiento
  • Su estado civil
  • La legislatura actual y las legislaturas anteriores en las que haya estado
  • Las comisiones en las que participa
  • La circunscripción a la que pertenece
  • Redes sociales:
    • El nombre del usuario en twitter
    • La URL a su web personal
    • La URL a su perfil en Facebook
    • La URL a su perfil en Flickr
    • La URL a su perfil en Linkedin
    • La URL a su perfil en YouTube
    • La URL a su perfil en Instagram

Basado en el trabajo de Pablo Castellano para la Legislatura X, adaptado para la XII. Se han unificado estos scripts y se han migrado de ScraperWiki a morph.io

Desarrollo

Para preparar el entorno de desarrollo y testing en local, con Ubuntu 16.04, recomendamos usar entornos virtuales. Ejecutamos lo siguiente:

sudo apt-get install libxml2-dev libxslt1-dev python3-dev  python3-venv
python3 -m venv env3
source bin/activate
pip install -r requirements.txt 
python scraper.py

Producción

Ver en morph.io

TODO

  • Arreglar bug en columna de estado_civil (sale parte del Curriculum)

About

Congreso: Datos diputado

https://morph.io/andreslucena/congreso_datos_diputado


Languages

Language:Python 100.0%