Senado Crawler
Instalar
Dependencias:
- Node.js 16 o Node.js 18
- Sqlite
Pasos
- Instalar dependencias
npm install
- Inicializar datos
npm run clean
- Actualizar datos del listado de un periodo
npm run refresh -- --cuatrenio "2022-2026" --legislatura "2022-2023" --tipo lista
- Actualizar detalles de los proyectos de un periodo.
npm run refresh -- --cuatrenio "2022-2026" --legislatura "2022-2023" --tipo detalle
- Revisar los resultados.
Los resultados de la ejecución se guardan en la carpeta prisma
en el archivo dev.db
. Esto es una base de datos en formato Sqlite que se puede visualizar en diferentes programas como https://sqlitebrowser.org/dl/
Tareas
- Crawl main page
- Extract basic information
- Put in a database table
proyectos
- Crawl details for each
- Put in a database table
proyectos_detail
- Put in a database table
- Extract basic information
- Sync periodically from db to google sheets, db is source of truth for scraped data.