tvaditya / BoraBusHackathon

[Hackathon DM] Prever satisfação dos cliente com relação aos serviços do BoraBusão!

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

BoraBusHackathon

Prever a satisfação dos clientes com relação aos serviços do BoraBusão!

Objetivos

E aí? O que queremos fazer? Aonde queremos chegar com isso?


Entender como usar e criar TransformerMixin e BaseEstimators do pacote SKLearn.

Criar pipelines.

Entender como salvar transformacões em binários e como recuperar eles e usar para gerar previsões.

Entender o MLFlow.

A métrica a ser avaliada para a previsão de satisfação dos clientes será a acurácia. Mas é importante mostrar a curva ROC e a métrica KS apenas para enriquecerem os resultados, será obrigatório gerá-los e interpertar os resultados dos mesmos.

Os trabalhos entregues serão avaliados em um dataset separada e desconhecido de vocês. Por favor, criem um repositório no github com as soluções, e sigam o cookie cutter de data science como padrão https://github.com/drivendata/cookiecutter-data-science

Sobre o dataset

O conjunto de dados veio de uma enquete com os clientes da BoraBusão e queremos saber se com estes dados podemos prever a satisfação dos mesmos com os serviços da empresa. (Lembrando que tanto a empresa citada quanto os dados são fictícios e alterados)

Features e contexto

  • ID: Identificação do cliente
  • Genero: Gênero do cliente
  • PlanoFidelidade: Se o cliente possui ou não o plano fidelidade da BoraBusão
  • Idade: Idade do cliente
  • RazaoViagem: Motivo da viagem ( pessoal ou a trabalho? )
  • CategoriaPassagem: Em qual catergoria ele está viajando? Normal, Comforto ou Leito
  • DistanciaKm: A distancia do trecho de viagem
  • WiFi: Possui WiFi no ônibus, o serviço está bom?
  • ConvenienciaHorarios: Os horários de partida e chagada são convenientes?
  • FacilidadeReservaViaApp: Nível de facilidade de fazer a reserva da passagem
  • PontosLocalização: A localização dos pontos de ônibus é boa, qual a satisfação com relação a esse ponto
  • Alimentação: A alimentação servida no oninbus e nos pontos, qual a sua avaliação?
  • CheckInViaApp: Facilidade de fazer o checkIn via o app
  • ConfortoInterno: Nível de conforto do ônibus ( cadeiras, ar-condicionado)
  • ServicosIntegracao: Nível de satisfação desde a chegada até o embarque.
  • SalaDeEspera: Nível de satisfação com a sala de espera de quem tem o plano Fidelidade
  • Bagagem: Nível de satisfação com o serviço e manuseamento da bagagem do passageiro
  • ServicoCheckin: Nivel de satisfaçao com o serviço de checkin local
  • ServicoDeBordo: Nível de satisfação com o serviço de bordo
  • Limpeza: Nível de satisfação com a Limpeza
  • AtrasoNaSaída: Atraso em minutos na partida
  • AtrasoNaChegada: Atraso em minuto na chegada
  • SatisfacaoGeral: Variável alvo, o cliente está satisfeito ou não

Alguns procedimentos

O dataset tem variáveis categóricas que precisam ser tratados e salvos como binários (usando pickle ou joblib) pois as transformações irão refletir no modelos, para entender melhor esse processo tomem como exemplo esse repositótio aqui https://github.com/vivianyamassaki/kaggle_titanic_deploy .

Lembrando que além das transformações a avaliação usará um dataset externo. Então antes de fazer qualquer transformação já separem um conjunto de testes com 10% do tamanho original para validar o modelo final. CUIDADO!! Isso é diferente de separar o dataset em treino e teste na hora de gerar o modelo nessa etapa voces terão um conjunto de treino, um de teste e um de validação já com as transformações geradas por vocês, e que voces irão usar para ajustar a acurácia do modelo gerado. Então sigam esse procedimento, separem o dataset da seguinte forma:

  • Teste final - 10%, será usado apenas com o binário gerado a partir do seu modelo final.
  • Etapa de geraçao do Modelo - Treino 60%, Teste 15% , Validação 15%

Apresentação dos resultados.

Gerar um .ppt com no maximo 4 slides de conteúdo, que será apresentado para todos no dia 26/09 as 15h. Terão 8 minutos para defenderem os resultados achados.

O vencedor será anunciado no dia 26/09/2022, os 3 primeiros colocados irão mostrar os resultados. As outras apresentações também serão avaliadas, mas em outro momento.


A data da entrega é 23/09/2022 até as 17:00h (fim do expediente DM).

Lembretes

A entrega deve conter:

Um repositório github com a solução desenvolvida e os binários gerados. Uma apresentação .ppt com 4 slides no máximo.

BOA SORTE AOS PARTICIPANTES

About

[Hackathon DM] Prever satisfação dos cliente com relação aos serviços do BoraBusão!