Este script parsea una de las webs de congreso.es y por cada diputado en el Congreso guarda:
- su id unico en la web del Congreso
- su nombre y apellidos
- la URL de su perfil en la web del Congreso
- la URL de la foto de su perfil en la web del Congreso
- la URL a la Declaración de Bienes y de Actividades
- El cargo que tiene (Diputado o Diputada)
- La posición en sector, fila y butaca
- Su correo electrónico
- El partido y grupo parlamentario (si tiene alguno) al que pertenece
- Su curriculum
- Su fecha de nacimiento
- Su estado civil
- La legislatura actual y las legislaturas anteriores en las que haya estado
- Las comisiones en las que participa
- La circunscripción a la que pertenece
- Redes sociales:
- El nombre del usuario en twitter
- La URL a su web personal
- La URL a su perfil en Facebook
- La URL a su perfil en Flickr
- La URL a su perfil en Linkedin
- La URL a su perfil en YouTube
- La URL a su perfil en Instagram
Basado en el trabajo de Pablo Castellano para la Legislatura X, adaptado para la XII. Se han unificado estos scripts y se han migrado de ScraperWiki a morph.io
- https://classic.scraperwiki.com/scrapers/congreso_listado_de_diputados/
- https://classic.scraperwiki.com/scrapers/congreso_datos_diputado/
Para preparar el entorno de desarrollo y testing en local, con Ubuntu 16.04, recomendamos usar entornos virtuales. Ejecutamos lo siguiente:
sudo apt-get install libxml2-dev libxslt1-dev python3-dev python3-venv
python3 -m venv env3
source bin/activate
pip install -r requirements.txt
python scraper.py
Ver en morph.io
- Arreglar bug en columna de estado_civil (sale parte del Curriculum)