Repositório destinado aos meus estudos no bootcamp Engenharia de Dados do IGTI.
- Aquecimento e Regras do Jogo
- Visão geral da dinâmica do curso, conteúdos e ferramentas utilizadas.
- Fundamentos
- Conceitos fundamentais: Dados, fontes de dados, Big Data, tipos de dados.
- Visão geral do pipeline de ciência de dados: coleta, preparação, armazenamento, processamento/análise, visualização.
- Visão geral de soluções (plataformas, tecnologias) para extração, ingestão, transformação, armazenamento e análise de dados.
- Fluxo de dados (data flow) ETL/ ELT (Extração, Transformação e Carga). -Implementação e automatização de ETL/ELT (data flow): Pentaho Data Integration, Apache NiFi e Apache Airflow.
- Armazenamento de dados
- Data warehouse e data lake: modelo, projeto, implementação, tecnologias envolvidas.
- Visão geral de SGBDs SQL(relacionais), NoSQL, NewSQL: o que é, diferenças e vantagens, ACID versus Teorema CAP / BASE, Categorias de SGBD NoSQL, Tecnologias existentes.
- Sistemas de arquivo: o que é, vantagens, tecnologias existentes. Armazenamento de dados em nuvem: SQL, NoSQL e sistemas de arquivos.
- Práticas: MySQL, PostGreSQL, Oracle ou SQL Server. Apache Hive.
- Práticas: MongoDB, Cassandra, HBase, Neo4j.
- Práticas demonstrativa: S3, Azure ou outro.
- Solução de dados utilizando Ecossistema Hadoop
- Introdução ao ecossistema Hadoop.
- Modelagem de dados com Hadoop.
- Ingestão de dados com Hadoop (Sqoop e Flume) e/ou Kafka).
- Armazenamento de dados com Hadoop (HDFS e HBase).
- Processamento de dados com Hadoop (Spark).
- Infraestrutura de dados e arquitetura escalável
- Serviços de conectividade, rede e segurança na Azure, AWS e GCP.
- Exemplos de containers para Ciência de Dados e Machine Learnig.
- Virtualização, containers e serviços de armazenamento.
- Recursos para escalabilidade, elasticidade, alta disponibilidade e processamento distribuído.
- Soluções para processamento de dados em larga escala. Modelos de serviços em nuvem: IaaS, PaaS, SaaS, etc.
- Fundamentos de arquitetura escalável: Dimensionamento da arquitetura; > - Cálculo de capacidade, disponibilidade e desempenho; Mecanismos e técnicas de segurança; Escalonamento vertical e horizontal.
- Requisitos arquiteturais: Nível de confiabilidade e escalabilidade; Carga de trabalho; Tipos e formatos dos dados; Complexidade dos dados; Fontes de dados; Nível de disponibilidade; Necessidades de integrações entre dados e fontes de dados; Mecanismos de acesso aos dados.
- Elementos que compões um projeto de arquitetura de dados. Visão geral do conceito e práticas de DataOps e integração contínua de dados e ferramentas.
- Soluções de automatização de data flows (Exemplo: Apache NiFi e/ou Airflow)
- Fechamento
- Conclusão da aplicação final.