Este script parsea una de las webs de congreso.es y por cada diputado en el Congreso guarda:

su id unico en la web del Congreso
su nombre y apellidos
la URL de su perfil en la web del Congreso
la URL de la foto de su perfil en la web del Congreso
la URL a la Declaración de Bienes y de Actividades
El cargo que tiene (Diputado o Diputada)
La posición en sector, fila y butaca
Su correo electrónico
El partido y grupo parlamentario (si tiene alguno) al que pertenece
Su curriculum
Su fecha de nacimiento
Su estado civil
La legislatura actual y las legislaturas anteriores en las que haya estado
Las comisiones en las que participa
La circunscripción a la que pertenece
Redes sociales:
- El nombre del usuario en twitter
- La URL a su web personal
- La URL a su perfil en Facebook
- La URL a su perfil en Flickr
- La URL a su perfil en Linkedin
- La URL a su perfil en YouTube
- La URL a su perfil en Instagram

Basado en el trabajo de Pablo Castellano para la Legislatura X, adaptado para la XII. Se han unificado estos scripts y se han migrado de ScraperWiki a morph.io

Desarrollo

Para preparar el entorno de desarrollo y testing en local, con Ubuntu 16.04, recomendamos usar entornos virtuales. Ejecutamos lo siguiente:

sudo apt-get install libxml2-dev libxslt1-dev python3-dev  python3-venv
python3 -m venv env3
source bin/activate
pip install -r requirements.txt 
python scraper.py

Producción

Ver en morph.io

TODO

Arreglar bug en columna de estado_civil (sale parte del Curriculum)

About

Congreso: Datos diputado

https://morph.io/andreslucena/congreso_datos_diputado

Languages

Language:Python 100.0%