Лабораторная работа по предмету Анализ данных (Классификация)

Описание задачи

Для данной работы мною был выбран Dataset MNIST. Задача состоит в распознавании рукописных цифр.

Описание dataset'а

Он состоит из 42000 объектов, 784 признаков.
Каждый объект представляет собой изображение цифры 28x28.
Каждый признак представляет собой определенный пиксель изображения, хранящий значение от 0-255, 0 - черный цвет, 255 - белый.
Классы представляют собой цифры, 0-9.

Используемая метрика качества

Для данной задачи я решил выбрать метрику F1 с макро усреднением, так как данная метрика определяет, насколько точно и полно были классифицированы объекты, что достаточно полно оценивает качество данной задачи.

Качество полученных классификаторов

kNN

Лучшие параметры:

Количество соседей: 3
L-метрика: эвклидова (2)
Весовая функция, используемая в прогнозировании: distance

Оценка предсказания тренировочной выборки с данными параметрами: 0.960868885832

Оценка предсказания тестовой выборки с данными параметрами: 0.963131490105

SVM

Лучшие параметры:

Ядро: rbf
Штраф параметра C ошибки: 10
Gamma: 0.05

Оценка предсказания тренировочной выборки с данными параметрами: 0.973670095438

Оценка предсказания тестовой выборки с данными параметрами: 0.976794711685

Дерево решений

Лучшие параметры:

Критерий: entropy
Максимальная глубина: 256
Минимальное разделение: 5

Оценка предсказания тренировочной выборки с данными параметрами: 0.844682794709

Оценка предсказания тестовой выборки с данными параметрами: 0.849533950892

CNN

Лучшие параметры:

Эпохи: 15
Batch size: 128

Оценка предсказания тренировочной выборки с данными параметрами: 0.989575132164

Оценка предсказания тестовой выборки с данными параметрами: 0.991909716852

Наивный байесовский

Лучшие параметры:

Alpha: 0
Fit prior: False

Оценка предсказания тренировочной выборки с данными параметрами: 0.833490481369

Оценка предсказания тестовой выборки с данными параметрами: 0.833690526198

Лучшая модель

Для данной задачи лучшей моделью являются сверточные нейронные сети, так как данная модель показала, лучший результат предсказаний на тестовой и тренировочной выборке, и для некоторых классов почти полное отсутствие ошибок первого или второго рода

ABoltachev / Laba2

Лабораторная работа по предмету Анализ данных (Классификация)

Описание задачи

Описание dataset'а

Используемая метрика качества

Качество полученных классификаторов

kNN

Лучшие параметры:

Оценка предсказания тренировочной выборки с данными параметрами: 0.960868885832

Оценка предсказания тестовой выборки с данными параметрами: 0.963131490105

SVM

Лучшие параметры:

Оценка предсказания тренировочной выборки с данными параметрами: 0.973670095438

Оценка предсказания тестовой выборки с данными параметрами: 0.976794711685

Дерево решений

Лучшие параметры:

Оценка предсказания тренировочной выборки с данными параметрами: 0.844682794709

Оценка предсказания тестовой выборки с данными параметрами: 0.849533950892

CNN

Лучшие параметры:

Оценка предсказания тренировочной выборки с данными параметрами: 0.989575132164

Оценка предсказания тестовой выборки с данными параметрами: 0.991909716852

Наивный байесовский

Лучшие параметры:

Оценка предсказания тренировочной выборки с данными параметрами: 0.833490481369

Оценка предсказания тестовой выборки с данными параметрами: 0.833690526198

Лучшая модель

About

Languages