Дневник

Most of the reports are related to the feature importance.
📝article_summaries 📝info_tables 🎯todo_list
🗣️seminar_pdfs 📄course_work

27/09/2020 - повторил 2 первые главы курса

Глава 1

Генерация текста:
- через поиск похожих
- по шаблону
- с помощью нейросетей
При векторном разряженном представлении документа теряется зависимость слов
Предиктивные модели (BERT, Transformer и т.п.) не требуют размеченной выборки
Сходство текстов можно определить как долю совпадающих путей, проходимых в графовых представлениях текстов
В классификации с текстами:
- большой длины линейные модели дают основное качество
- короткими, в зависимости от объема gold_labels:
  - малый объем - ядерные методы
  - совсем нет - системы правил
В эксплоративном анализе применяются методы тематического регулирования: LDA, ARTM

Глава 2

В подходе с TF-IDF не используется информация о метках документов => теряем часть информация, если она есть

04/10/2020 - прочитал обзорную статью про online learning

В большенстве случаев рассматривается бинарная классификация и задача оптимизации

причём ищется для , не зависящего от
В Contextual Bandits минимизируется

где , - действие выбранное на t шаге
Есть ссылка на потенциально интересную статью про online deep learning

12/10/2020 - прочитал статью про variable importances in forests of randomized trees

Ограничения в работе: неповторение в детях признаков родителей, выборка полностью описывающая распределение , бесконечное кол-во полных рандомизированных деревьев
Если выбираем на этапе деления рандомно один признак и глубина дерева >= кол-во рел. признаков -> важность признака == 0 <-> он нерелевантный
Если выбираем > 1 признака и из них максимизирующий уменьшение энтропии -> появляется маскирующий эффект: некоторые релевантные признаки могут иметь сильно меньшую важность по сравнению с похожими рел. признаками
- Добавление нерелевантных может сказаться на важности релевантных

26/10/2020 - прочитал пример, пример, пример с sklearn про permutation feature importance и из источника, источника про важность признаков

impurity-based feature importance for trees are strongly biased and favor high cardinality features
если в датасете есть скоррелированные признаки, то в подходе permutation importance таким признакам будет даваться малый вес
- решение проблемы: иерархическая кластеризация по корреляциям рангового порядка Спирмена, выбор порога и сохранение одного объекта из каждого кластера
в случае random forest если сложность модели велика по сравнению с данными, алгоритм может переобучиться и даже рандомные признаки будут играть большую роль
drop column метод вычислительно трудозатратный, но точный
в методе lime особую роль играет подбор возбуждений экземпляра выборки

25/12/2020 - читаю статью «Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful». В последнее время разбирал и конспектировал статьи.

23/01/2021 - начал ввести описание библиотек в таблице. Добавил rfpimp, eli5, cxplain.

08/02/2021 - доделываю слайды на семинар.

22/02/2021 - законспектировал две статьи.

28/02/2021 - законспектировал две статьи.

14/03/2021 - законспектировал обзор на filter methods и поэкспериментировал на датасете про диабет link.

23/03/2021 - законспектировал статью и сделал эксперимент с сэмплированием признаков.

29/03/2021 - добавил 2 эксперимента с копией признака и RFE.

14/04/2021 - добавил эксперименты с искусственным датасетом и прочитал обзор о недостатках permutation importance.

28/04/2021 - добавил 1-ую версию курсовой работы.

05/05/2021 - сделал еще эксперименты с искусственным датасетом, добавил аналог CXplain(официальная реализация не очень хорошо сработала).

14/05/2021 - обновил эксперименты и добавил 2-ую версию курсовой работы.

MikhailKuz / msu_3course_diary