muniter / senado_crawler

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Senado Crawler

Instalar

Dependencias:

  1. Node.js 16 o Node.js 18
  2. Sqlite

Pasos

  1. Instalar dependencias
npm install
  1. Inicializar datos
npm run clean
  1. Actualizar datos del listado de un periodo
npm run refresh -- --cuatrenio "2022-2026" --legislatura "2022-2023" --tipo lista
  1. Actualizar detalles de los proyectos de un periodo.
npm run refresh -- --cuatrenio "2022-2026" --legislatura "2022-2023" --tipo detalle
  1. Revisar los resultados.

Los resultados de la ejecución se guardan en la carpeta prisma en el archivo dev.db. Esto es una base de datos en formato Sqlite que se puede visualizar en diferentes programas como https://sqlitebrowser.org/dl/

Tareas

  • Crawl main page
    • Extract basic information
      • Put in a database table proyectos
      • Crawl details for each
      • Put in a database table proyectos_detail
  • Sync periodically from db to google sheets, db is source of truth for scraped data.

About


Languages

Language:HTML 96.4%Language:TypeScript 3.6%Language:JavaScript 0.0%