fadoaglauss / InfoBifaroBot

Coletor de propósito geral para disciplina de Recuperação de Informação do CEFET-MG

Home Page:http://fadoa.github.io/InfoBifaroBot

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Seja Bem-Vindo ao Bifaro Bot

Este projeto foi desenvolvido por Beatriz Souza da Silva, Fadoa Glauss Vieira e Robert Cristiam Faustino de Souza como parte da discplina de Tópicos Especiais em Computação e Algoritmos: Algorimos de Organização e Recuperação de Informação do Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). Seu objetivo é promover o estudo e aprendizado de um coletor de próposito geral para Web.

Como Executar?

Antes de comerçarmos, instale o python3 e o pip3 abaixo usando sudo apt-get install python3 python3-pip.

Asim, você pode utilizar a prática desenvolvida no coding dojo, disponível em docs para executar o Bifaro Bot! Ou se você preferir, utilize o comando:

python3 run.py

E lembre-se de instalar todas as dependências, caso utilize o run.py!

!pip install bs4
!pip install requests
!pip install lxml

Identificando o Bifaro Bot

O tráfego proveniente é identificado por seu agente de usuário: bifaroBot.

Customizando as regras de robots.txt

Bifaro Bot respeita as diretivas padrão de robots.txt. Neste exemplo, o Bifaro Bot não coleta documentos em private ou not-allowed por meio do uso da biblioteca RobotFileParser:

User-agent: bifaroBot
Allow: /                     # Allow everything
Disallow: /private/          # Disallow this directory
User-agent: *                # Any robot
Disallow: /not-allowed/      # Disallow this directory

Regras de Renderização e Robô

O Bifaro Bot pode processar o conteúdo de seu site em um navegador. Se resursos forem bloqueados por meio de robots.txt, o Bifaro Bot pode não ser capaz de processar o conteúdo corretamente. Isso inclui XHR, JS e CSS que a página pode exigir.

Para que o Bifaro Bot indexe o melhor conteúdo para a página, certifique-se de que tudo o que é necessário para um usuário renderizar a página está disponível para o Bifaro Bot. Como alternativa, certifique-se de que o site seja renderizado de forma limpa, mesmo se todos os recursos não estiverem disponíveis.

Coleta

Para fins didáticos, realizou-se a coleta no dia 15 de Outubro de 2020 de páginas públicas, obedecendo a politíca de exclusão de robôs - disponível em robos.txt da página, por meio das seguintes sementes:

Para mais detalhes veja BifaroBot.

Suporte ou Contato

Você teve problema com o projeto? Entre em contato com o suporte por e-mail.

About

Coletor de propósito geral para disciplina de Recuperação de Informação do CEFET-MG

http://fadoa.github.io/InfoBifaroBot

License:MIT License


Languages

Language:Jupyter Notebook 58.4%Language:Python 41.6%