deividxyz / mercantil_scrapy

Porque el libro rojo es muy gordo...

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

mercantil_scrapy

Este es un scraper para Mercantil.com, basado en Scrapy, stem, privoxy y TOR. El scraper se encuentra contenido en un contenedor Docker.

¿Cómo ejecutar?

  1. Primero debes instalar Docker (https://www.docker.com/community-edition).
  2. Clonar este repositorio.
  3. Abrir un Terminal, cambiar al directorio del repositorio y ejecutar.
docker build -t mercantil_scrapy .

Esto generará la imágen de Docker con las dependencias necesarias para ejecutar el scraper.

  1. Una vez terminado el armado de la imagen, ejecuta docker run -i -t mercantil_scrapy bash en la Terminal. Esto lanzará una consola en el sistema virtual. Luego ejecuta cd /home/mercantil && ./start.sh para iniciar el proceso de webscraping.

El proceso demorará aproximadamente 1 semana ya que scrapy limitará las conexiones simultáneas para evitar posibles baneos de IP, y también cambiará la IP del servidor proxy cada 10 registros recolectados.

About

Porque el libro rojo es muy gordo...


Languages

Language:Python 99.3%Language:Shell 0.7%