Este projeto consta na criação de um modelo preditivo para prever a evasão ou formação de um estudantes dentro de uma faculdade portuguesa. Para a escolha do modelo preditivo ideal, serão testadas várias técnicas de modelos supervisionados, desde modelos de machine learning até modelos de deep learning. Também serão abordadas técnicas sobre oversampling e feature engeneering neste projeto! Nosso resultado final será uma aplicação no Streamlit para receber algumas informações sobre estudantes e retornar a classificação da probabilidade da possível formação ou evasão dos estudantes. Vamos aprender a criar do zero?
Um conjunto de dados criado a partir de uma instituição de ensino superior (adquirido de várias bases de dados disjuntas) relacionado a alunos matriculados em diferentes cursos de graduação, como agronomia, design, educação, enfermagem, jornalismo, administração, serviço social e tecnologias.
O conjunto de dados inclui informações conhecidas no momento da matrícula do aluno (percurso acadêmico, demografia e fatores socioeconômicos) e o desempenho acadêmico do aluno no final do primeiro e segundo semestres. Os dados são usados para construir modelos de classificação para prever a evasão e o sucesso acadêmico dos alunos. O problema é formulado como uma tarefa de classificação de três categorias, na qual há um forte desequilíbrio em relação a uma das classes.
O conjunto de dados foi criado no âmbito de um projeto que visa contribuir para a redução do abandono e insucesso académico no ensino superior, através da utilização de técnicas de aprendizagem automática para identificar alunos em risco numa fase inicial do seu percurso académico, de modo a que estratégias de apoio aos mesmos possam ser postas em prática. O conjunto de dados inclui informações conhecidas no momento da matrícula do aluno, trajetória acadêmica, demografia e fatores socioeconômicos. O problema é formulado como uma tarefa de classificação de três categorias (abandono, matriculado e graduado) ao final da duração normal do curso.
Este conjunto de dados é apoiado pelo programa SATDAP - Capacitação da Administração Pública ao abrigo da bolsa POCI-05-5762-FSE-000191, Portugal.