evfjunior / brazilian-ecommerce

A data analysis project about brazilian e-commerce. Um projeto de análise de dados sobre o comércio online brasileiro.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

brazilian-ecommerce

A data analysis project about brazilian e-commerce.
Um projeto de análise de dados sobre o comércio online brasileiro.

Introdução

Este projeto se baseia em dados públicos divulgados pela Olist ( https://olist.com/ ), um dos maiores marketplaces do comércio online no Brasil. Os dados foram coletados no Kaggle ( https://kaggle.com/ ).

Os datasets contém mais de 100 mil registros de compra, no período de setembro de 2016 a setembro de 2018, com informações sobre produtos, compras, clientes, opinião de satisfação, entre outros.

Os Dados

A seguir, teremos uma descrição dos datasets e seus conteúdos (Versão 4).

geolocation_olist_public_dataset.csv:
Este dataset inclui latitudes e longitudes aleatórias a partir de um dado prefixo de CEP.

  • zip_code_prefix: São os três primeiros dígitos de um CEP;
  • city: Cidade associada ao CEP.

olist_classified_public_dataset.csv:
Este dataset inclui 3584 linhas, as mesmas 21 características do dataset não classificado e mais alguns dados de classificação.
Ele foi classificado por três analistas independentes. Cada analista votou em qual classe ele julgava que um comentário deveria pertencer. Assim, classificamos um comentário escolhendo a classe mais votada.

  • votes_before_estimate: Votos recebidos por mensagens com indicação de recebimento do produto antes da data estimada;
  • votes_delayed: Votos recebidos por reclamação de atraso;
  • votes_low_quality: Votos recebidos por reclamação de baixa qualidade no produto;
  • votes_return: Votos recebidos por mensagens de clientes com desejo de devolução do produto ao vendedor;
  • votes_not_as_anounced: Votos recebidos por reclamação de produto diferente do anunciado;
  • votes_partial_delivery: Votos recebidos por reclamação de entrega parcial (nem todos os produtos foram entregues);
  • votes_other_delivery: Outros tipos de reclamação envolvendo a entrega;
  • votes_other_order: Outros tipos de reclamação envolvendo o pedido;
  • votes_satisfied: Votos recebidos por mensagens de clientes satisfeitos;
  • most_voted_subclass: Seleciona a sublclasse mais votada para o comentário;
  • most_voted_class: Agrega sublclasses em três classes (satisfeito, problemas com a entrega e problemas com a qualidade).

olist_public_dataset_v2.csv:
Este dataset inclui 100 mil linhas e 21 características.
Observações:

  • Note que um comentário talvez possa se repetir se uma compra tiver dois ou mais produtos diferentes;
  • Uma compra pode ser realizada por mais de um vendedor se o cliente comprar mais de um produto;
  • Alguns comentários de avaliação possuem dados pessoais como número de telefone, então foi feita uma busca regex para substituir cada grupo de 3 dígitos por '000'. Isso pode bagunçar também outros dados que não sejam números de telefone no meio dos comentários;
  • Todos os textos identificando lojas e seus parceiros foram substituídos por nomes das grandes casas de Game of Thrones.

  • order_id: Identificador único da compra;
  • order_status: Referência do status da compra (entregue, enviado, etc);
  • order_products_value: Preço total de todos produtos da compra;
  • order_freight_value: Valor total do frete em uma compra;
  • order_items_qty: Quantidade total de produtos na compra;
  • order_sellers_qty: Total da quantidade de vendedores que realizaram a venda;
  • order_purchase_timestamp: Registro de data e hora da compra;
  • order_aproved_at: Data e hora da aprovação de pagamento;
  • order_estimated_delivery_date: Data estimada de entrega mostrada ao cliente no momento da compra;
  • order_delivered_customer_date: Data real de entrega ao cliente;
  • customer_id: Identificador do cliente. Cada compra tem um único cliente. Para encontrar o customer_id único, consulte o dataset customers;
  • customer_city: Cidade do cliente;
  • customer_state: Estado do cliente;
  • customer_zip_code_prefix: Os três primeiros dígitos do CEP do cliente;
  • product_category_name: A categoria raiz do produto comprado (em português);
  • product_name_lenght: Número de caracteres do nome do produto;
  • product_description_lenght: Número de caracteres da descrição do produto;
  • product_photos_qty: Número de fotos publicadas no anúncio do produto;
  • product_id: Identificador único do produto;
  • review_id: Identificador único da avaliação do produto;
  • review_score: Nota (entre 1 e 5) dada pelo cliente em uma pesquisa de satisfação;
  • review_comment_title: Título da avaliação deixada pelo cliente (em português);
  • review_comment_message: mensagem deixada pelo cliente na avaliação do produto (em português);
  • review_creation_date: Data na qual a pesquisa de avaliação foi enviada ao cliente;
  • review_answer_timestamp: Data e hora que a pesquisa de avaliação foi respondida.

olist_public_dataset_v2_customers.csv: Este dataset inclui identificadores únicos de clientes.

  • customer_id: Chaves para o dataset orders. Cada compra possui um customer_id único;
  • customer_unique_id: Identificador único de um cliente .

payments_olist_public_dataset.csv:
Este dataset inclui opções de pagamento das compras.

  • order_id: Identificador único de uma compra;
  • installments: Quantidade de parcelas escolhida pelo cliente;
  • sequential: Um cliente pode utilizar mais de um método de pagamento. Neste caso, uma sequência será criada para acomodar todos os pagamentos;
  • payment_type: Método de pagamento escolhido pelo cliente;
  • value: Valor da transação.

product_category_name.csv:
Traduz o dataset product_category_name para o inglês.

Este projeto está em andamento, recebendo atualizações e adições com frequência.

About

A data analysis project about brazilian e-commerce. Um projeto de análise de dados sobre o comércio online brasileiro.


Languages

Language:Jupyter Notebook 100.0%