Twitter - Data Project

Implemente uma solução que:

Consiga buscar tweets com uma determinada “HashTag”, por exemplo, covid19.
Armazenar os resultados em formato Parquet
Criar um datalake para que seja possível consolidar dados analíticos por hashtag e posteriormente consultar informações coletadas de forma batch / online.

Recomendamos a utilização das seguintes tecnologias:

Testes/Tópicos que consideramos importantes:

Neste projeto foi utilizado as seguintes tecnologias open source:

Arquitetura

O projeto contém um arquivo Make para facilitar a operação.

cd devops

make install_dependencies

make start_storage

O serviço de ingestão recebe na variável TWITTER_PARAM o filtro que será enviado na requisição do Twiiter.

export TWITTER_PARAM=covid19

e em seguida inicialize a ingestão

make start_ingestion

make start_batch

make stop_batch

make status

Language:Python 81.4%Language:Makefile 15.5%Language:Dockerfile 3.1%