yaroslav-vorobyov / SF_DST

Data Science Professional course

jupyter python matplotlib numpy pandas plotly seaborn sql psycopg2 scipy ab-testing eda machine-learning data-visualization scikit-learn hyperopt hyperparameter-optimization optuna nltk docker

Data Science

Курс обучения: SkillFactory Data Science

Выпускная работа

Название проекта	Описание	Стек и инструменты
Финальный проект	Исследование временных рядов основных котировок крупных корпораций - Apple, Microsoft, Google, nVidia. Запуск наилучшего инференса модели как сервис	sklearn.linear_model (LinearRegression), sklearn.ensemble (AdaBoostRegressor, GradientBoostingRegressor, VotingRegressor), sklearn.model_selection (GridSearchCV, TimeSeriesSplit, cross_val_score), sklearn.metrics (mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), Catboost (CatBoostRegressor), prophet (Prophet), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), seaborn (lineplot, pairplot, heatmap), with statement, time series, AIC, concat, correlation matrix, cross validation, correlogram, datetime, EDA, feature engineering, os.path, resample, rolling, stationarity, SMA, ARIMA, GPU, yfinance, pickle, Docker, Dockerfile, Flask

Проекты

Название проекта	Описание	Стек и инструменты
Проект 1. Анализ резюме из HeadHunter	Подготовка первичных данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru - для построения перспективной модели, автоматически определяющей уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе	plotly (histogram, box, bar, imshow, scatter, sunburst), seaborn (histplot), os.path, merge, EDA, feature engineering
Проект 2. Анализ резюме из HeadHunter (SQL)	Анализ данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru, используя навыки написания запросов SQL в БД PostgreSQL - для построения модели, рекомендующей вакансии клиентам агентства, претендующим на позицию Data Scientist	psycopg2, requests, plotly (bar, imshow), with statement, try-except statement, concat, EDA, feature engineering
Проект 3. Рейтинг отеля по данным сайта Booking. Соревнование на Kaggle	Построение модели, предсказывающей рейтинг отеля	collections (OrderedDict), category_encoders (TargetEncoder), sklearn.model_selection (train_test_split), sklearn.feature_selection (chi2, f_classif), sklearn.ensemble (RandomForestRegressor), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error), sklearn.preprocessing (MinMaxScaler), concat, correlation matrix, EDA, feature engineering, feature importance, seaborn (barplot, boxplot, heatmap), lightautoml, nltk (SentimentIntensityAnalyzer), pivot_table, regex
Проект 4. Задача классификации	Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать поведение клиента при открытии депозита	sklearn.metrics (classification_report), sklearn.preprocessing (LabelEncoder, MinMaxScaler), sklearn.model_selection (train_test_split, GridSearchCV, cross_val_score), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), optuna (Trial, study), match-case statement, concat, cross validation, correlation matrix, EDA, feature importance
Проект 5. Задача регрессии	Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать время поездки такси	collections (OrderedDict), scipy.stats (normaltest), sklearn.cluster (KMeans), sklearn.metrics (mean_squared_error, median_absolute_error), sklearn.preprocessing (OneHotEncoder, MinMaxScaler), sklearn.model_selection (train_test_split), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LinearRegression, Ridge), sklearn.tree (DecisionTreeRegressor), sklearn.ensemble (RandomForestRegressor, GradientBoostingRegressor), seaborn (histplot, boxplot, scatterplot, lineplot, heatmap, barplot), match-case statement, swifter, os.system, os.path, gdown, XGBoost, merge, concat, EDA, feature engineering, feature importance
Проект 6. Задача кластеризации	Построение модели кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, идентификация покупательского профиля каждого из кластеров	sklearn.model_selection (train_test_split, GridSearchCV), sklearn.metrics (silhouette_score, calinski_harabasz_score, davies_bouldin_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, StandardScaler), sklearn.pipeline (Pipeline), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), sklearn.cluster (KMeans, AgglomerativeClustering), sklearn.mixture (GaussianMixture), sklearn.decomposition (PCA, explained_variance_ratio_), sklearn.manifold (TSNE, kl_divergence_), seaborn (barplot, scatterplot, lineplot), plotly (box, Scatterpolar), match-case statement, recursion, gdown, os.path, EDA, feature engineering, pivot_table, regex

⬆️вверх ↑

Практические работы

Название проекта	Описание	Стек и инструменты
Проект 0.1. Модуль: PYTHON-8. Инструменты для Data Science	Реализация алгоритма самого быстрого перебора чисел и угадывание загаданное компьютером число за минимальное количество попыток. Отработка навыков взаимодействия с Git-Github, настройка .gitignore, импорт собственных модулей python в Jupyter	Jupyter, import, git, python, gitignore
Проект 0.2. Модуль: PYTHON-13. Визуализация данных	Выяснение основных причин оттока клиентов и анализирование, чем ушедшие клиенты отличаются от лояльных и как между собой связаны различные признаки, определяющие клиентов. Подготовка рекомендаций к отчёту для банка, разрабатывающего кампанию лояльности по удержанию клиентов	plotly (pie, box, histogram, scatter, sunburst, bar, choropleth), seaborn (heatmap), pivot_table, EDA, feature engineering
Проект 0.3. Модуль: EDA-4. Статистические тесты	Выполнение статических тестов, проверка данных на нормальность и на наличие взаимосвязи	scipy.stats (shapiro, normaltest, pearsonr, spearmanr, ttest_ind, mannwhitneyu, ranksums), seaborn (kdeplot, heatmap), statistics (median), concat, correlation matrix, EDA, p-value
Проект 0.4. Модуль: EDA-5. A/B-тестирование	Анализ эффективности вариантов посадочной страницы в туристической компании	statsmodels.stats.proportion (proportions_ztest), scipy.stats (norm.ppf, t.ppf, shapiro, ttest_ind), seaborn (lineplot, heatmap), pivot_table, correlation matrix, EDA, feature engineering, cumsum, cumulative metrics, p-value, confidence intervals
Проект 0.5. Модуль: EDA-6. Проектирование экспериментов	Взаимодействие с платформой Comet.ml, логирование экспериментов	sklearn.preprocessing (MinMaxScaler), sklearn.linear_model (LogisticRegression), sklearn.metrics (accuracy_score), category_encoders (OneHotEncoder, BinaryEncoder), seaborn (heatmap, countplot), comet_ml (Experiment), concat, API kaggle
Проект 0.6. Модуль: ML-3. Обучение с учителем: классификация	Построение модели - классификатора, позволяющей своевременно определять уходящих клиентов банка, оценка качества построенных моделей	sklearn.metrics (f1_score, classification_report, recall_score, precision_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, PolynomialFeatures), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split), seaborn (barplot), EDA, feature engineering
Проект 0.7. Модуль: ML-6. Отбор и селекция признаков	Построение модели линейной регресии, предсказывающей стоимость автомобиля, оценка качества построенных моделей	sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), sklearn.linear_model (LinearRegression), sklearn.model_selection (train_test_split), sklearn.feature_selection (RFE, SelectKBest, f_regression), feature engineering, wget
Проект 0.8. Модуль: ML-6. Отбор и селекция признаков	Построение модели классификации пользователей и определение лучшего способа кодирования данных в процессе подготовки данных. Закрепление Comet.ML на практике, логирование экспериментов	sklearn.metrics (accuracy_score, confusion_matrix, roc_curve, roc_auc_score), sklearn.preprocessing (OneHotEncoder, LabelEncoder), sklearn.linear_model (LogisticRegression), comet_ml (Experiment), wget, EDA, feature engineering, TP, FP, TN, FN
Проект 0.9. Модуль: ML-7. Оптимизация гиперпараметров модели	Построение моделей, предсказывающих биологический ответ молекул по их химическому составу, подбор гиперпараметров моделей	sklearn.metrics (f1_score), sklearn.linear_model (LogisticRegression), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split, cross_validate, GridSearchCV, RandomizedSearchCV, cross_val_score), hyperopt (hp.choice, hp.uniform, space_eval), optuna (Trial, study), seaborn (countplot), try-except statement, cross validation, EDA
Проект 0.10. Модуль: MATH_ML-2. Линейная алгебра в контексте линейных методов	Построение регрессионной модели, прогнозирующей выработку газа на скважине на основе остальных характеристик скважины, и интерпретация результатов - рекомендации владельцу скважины	collections (OrderedDict), sklearn.metrics (mean_absolute_percentage_error), sklearn.preprocessing (StandardScaler, PolynomialFeatures), sklearn.linear_model (LinearRegression, Lasso, Ridge, ElasticNet), sklearn.model_selection (cross_validate, cross_val_score), optuna (Trial, study), seaborn (histplot, regplot, heatmap), numpy.linalg (norm, matrix_rank, det, inv), numpy (column_stack, hstack, corrcoef, printoptions, ones_like, ones, triu), with statement, match-case statement, correlation matrix, cross validation, EDA, feature engineering, SQLite, regularization L1-L2
Проект 0.11. Модуль: MATH_ML-6. Математический анализ в контексте задачи оптимизации	Реализация алгоритмов координатного спуска и стохастического градиентного спуска, оценка качества полученных моделей	sklearn.metrics (mean_squared_error, mean_absolute_error), sklearn.linear_model (LinearRegression), numpy.linalg (norm), numpy (hstack, ones, zeros, std, append, full, inf), os.path
Проект 0.12. Модуль: MATH_ML-7. Наивный байесовский классификатор	Реализация классификатора спам-сообщений, подбор гиперпараметра модели	sklearn.metrics (classification_report, roc_curve), sklearn.model_selection (train_test_split, GridSearchCV), sklearn.naive_bayes (ComplementNB), sklearn.feature_extraction (text.CountVectorizer), seaborn (countplot, lineplot), numpy (nan), EDA, feature engineering, regex
Проект 0.13. Домашнее задание. Модуль: MATH_ML-13. Временные ряды	Анализ ВВП африканской страны Гана, расчёт волатильности, подбор гиперпараметров временных моделей	sklearn.linear_model (LinearRegression), sklearn.model_selection (GridSearchCV, TimeSeriesSplit), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), arch.univariate (arch_model), seaborn (lineplot), time series, AIC, MASE, correlogram, gdown, os.path, cross validation, EDA, rolling, interpolation, stationarity, SMA, ARIMA, GARCH

Общий стэк для всех проектов: pandas, numpy, matplotlib.

⬆️вверх ↑

Лицензия

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

About

Data Science Professional course

jupyter python matplotlib numpy pandas plotly seaborn sql psycopg2 scipy ab-testing eda machine-learning data-visualization scikit-learn hyperopt hyperparameter-optimization optuna nltk docker

Other

Languages

Language:Jupyter Notebook 99.7%Language:Python 0.3%Language:Dockerfile 0.0%