ousmal / Openclasroom_P8_Comp-tion_kaggle

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Introduction

Le projet de ce notebook a été réalisé dans le cadre de la formation d'ingénieur machine learning proposé par Openclassrooms.

Pour terminer la formation, il est demandé de participer à une compétition Kaggle en cours. Parmi les compétitions ouvertes au début de ce projet, celles servant à l’apprentissage, et donc les compétitions très connues comme la classification des chiffres manuscrits ou la prédiction de survivants sur le Titanic sont écartées. Par conséquent, puisque je m’intéresse plus particulièrement aux données biologiques, la compétition « Novozymes Enzyme Stability Prediction » (lien ici ) a été choisie.

Contexte

Novozymes le leader mondial du marché des solutions biologiques, trouve des enzymes dans la nature et les optimise pour une utilisation dans l'industrie. Dans l'industrie, les enzymes remplacent les produits chimiques et accélèrent les processus de production. Ils aident ces clients à faire plus avec moins, tout en économisant de l'énergie et en générant moins de déchets. Les enzymes sont largement utilisées dans les détergents à lessive et à vaisselle où elles éliminent les taches et permettent un lavage à basse température et des détergents concentrés. D'autres enzymes améliorent la qualité du pain, de la bière et du vin, ou augmentent la valeur nutritionnelle des aliments pour animaux. Les enzymes sont également utilisées dans la production de biocarburants où elles transforment l'amidon ou la cellulose de la biomasse en sucres qui peuvent être fermentés en éthanol.

Objectif

Les enzymes sont des protéines qui agissent comme des catalyseurs dans les réactions chimiques des organismes vivants. L'objectif de ce concours est de prédire la thermostabilité de variants enzymatiques. Les données de thermostabilité (température de fusion) mesurées expérimentalement comprennent des séquences naturelles, ainsi que des séquences modifiées avec des mutations simples ou multiples sur les séquences naturelles. Comprendre et prédire avec précision la stabilité des protéines est un problème fondamental en biotechnologie. Ses applications incluent l'ingénierie enzymatique pour relever les défis mondiaux en matière de durabilité, de neutralité carbone et plus encore.

Contenu du repositiry:

  • Un notebook de pré-traitement et d'entrainement des modèles.
  • Un document des liens kernels
  • Un rapport de synthèse des travaux réalisés
  • Une présentation sous forme de diapositives

Données:

Enzymes Novozymes

About


Languages

Language:Jupyter Notebook 100.0%