VIGAN Jéros's repositories
Projet-ONF-R-TALEND-SQL
PROJET INFORMATIQUE ET STATISTIQUE : L’IMPACT DU CHANGEMENT CLIMATIQUE DANS LA ZONE D’ÉTUDE : BASSIN MADRES
Projet-Sondage-etude-de-cas
Cette étude de cas porte sur un tableau relatif à la France qui est découpée en 4 zones (AA, BB, CC et DD). Le fichier concerne 24 000 unités de production et comporte 5 variables : • 2 variables qualitatives (la variable PAYS qui prend la modalité FR, la variable ZONE qui prend les modalités AA, BB, CC ou DD) • 3 variables quantitatives (VAR1, VAR2 et VAR3) Pour étude de la distribution des variables. Nous allons utiliser deux programmes : R et SAS en d’une sureté dans les résultats. L’étude de l’univers qu’est la population porte sur les indicateurs concernant la distribution de chaque variable : somme, moyenne, écart-type corrigé, coefficient de variation. Le tableau ci-dessous résume les résultats par variable.
covid19-dashboard
A site that displays up to date COVID-19 stats, powered by fastpages.
Kaggle_Titanic_Competitions
Modelisation de prédictions passagers ont survécu au nauffrage du Titanic
Projet-COVID-19-Python-TALEND
Quelles sont les capacités de résilience des pays face à cette pandémie ?
Projet-DataScience-Machine-Learning
# 1. Exploratory Data Analysis (EDA) ## Objectif : - Comprendre du mieux possible nos données - Développer une premiere stratégie de modélisation #### Analyse de la forme - **variable target (variable à expliquer)** : SARS-Cov-2 exam result - **linges et colonnes** :5644, 111 - **types de variables (variables explicatives)**: quantitatives :70 , qualitatives : 40 - **Analyse des valeurs manquantes** : - beaucoup de NaN (moitié des variables > 90% de NaN) - 2 groupes de données 76% -> Test viral, 89% -> taux sanguins #### Analyse de Fond : - **Visualisation de la target** : - 10% de positifs (558 / 5000) - **Signification des variables** : - variables continues standardisées, skewed (asymétriques), test sanguin - age quantile : difficile d'interpreter ce graphique, clairement ces données ont été traitées, on pourrait penser 0-5, mais cela pourrait aussi etre une transformation mathématique. On peut pas savoir car la personne qui a mit ce dataset ne le précise nul part. Mais ca n'est pas tres important - variable qualitative : binaire (0, 1), viral, Rhinovirus qui semble tres élevée. - **Relation Variables / Target** : - target / blood : les taux de Monocytes, Platelets, Leukocytes semblent liés au covid-19 -> hypothese a tester. - target/age : les individus de faible age sont tres peu contaminés ? -> attention on ne connait pas l'age, et on ne sait pas de quand date le dataset (s'il s'agit des enfants on sait que les enfants sont touchés autant que les adultes). En revanche cette variable pourra etre intéressante pour la comparer avec les résultats de tests sanguins - target / viral : les doubles maladies sont tres rares. Rhinovirus/Enterovirus positif - covid-19 négatif ? -> hypothese a tester ? mais il est possible que la région est subie une épidémie de ce virus. De plus on peut tres bien avoir 2 virus en meme temps. Tout ca n'a aucun lien avec le covid-19. ## Analyse plus détaillée - **Relation Variables / Variables** : - **Relation quanti * quanti ** - blood_data / blood_data : certaines variables sont tres corrélées : +0.9 (a suveiller plus tard) - **Relation quanti * quali ** - blood_data / age : tres faible corrélation entre age et taux sanguins - **Relation quali * quali ** - viral / viral : influenza rapid test donne de mauvais résultats, il fauda peut-etre la laisser tomber - relation maladie / blood data : Les taux sanguins entre malades et covid-19 sont différents - relation hospitalisation / est malade : - relation hospitalisation / blood : intéressant dans le cas ou on voudrait prédire dans quelle service un patient devrait aller - **NaN analyse** : viral : 1350(92/8), blood : 600(87/13), both : 90 ### hypotheses nulle (H0): - Les individus atteints du covid-19 ont des taux de Leukocytes, Monocytes, Platelets significativement différents - H0 = Les taux moyens sont ÉGAUX chez les individus positifs et négatifs - Les individus atteints d'une quelconque maladie ont des taux significativement différents
Projet_Analyst_Data_python
Analyse des données sur les établissements de la France selon les région , filières et capacités.
cours-2019-2020
Documents de cours 2019-2020
COVID19
Unified data hub for a better understanding of COVID-19
covid19-dashboard-1
Tableau de bord de suivi de l'épidémie de COVID-19
cutecharts.py
📉 Hand drawing style charts library for Python
Data-Science-Pro
Regularly Updated | Collection of of the best Data Science Material from the Web
data.table
R's data.table package extends data.frame:
data_to_viz
Leading to the dataviz you need
emoji-cheat-sheet
A markdown version emoji cheat sheet
jupyterlab-nvdashboard
A JupyterLab extension for displaying dashboards of GPU usage.
leaflet-geoman
🍂🗺️ The most powerful leaflet plugin for drawing and editing geometry layers
leaflet-providers
An extension to Leaflet that contains configurations for various free tile providers.
Leaflet.markercluster
Marker Clustering plugin for Leaflet
ML-predilection-des-prix-des-chambres-califormia
Machine Learning sur les prix des appartements
NLP
Natural Language Processing For Everyone
nlp-1
🤗 nlp: datasets and evaluation metrics for Natural Language Processing in NumPy, Pandas, PyTorch and TensorFlow
R-graph-gallery
A website that displays hundreds of R charts with their code
rayshader
R Package for 2D and 3D mapping and data visualization
searchable-map-template-csv
:earth_americas: You want to put your data on a searchable, filterable map. This is a free, open source template using Leaflet & Turf to help you do it.
simulation_virus_covid-19
Création d'un virus, et infection d'une population
transformers
🤗Transformers: State-of-the-art Natural Language Processing for Pytorch and TensorFlow 2.0.