amirassov / cft

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

CFT

Описание

  1. Предобработка данных: используя спеллчекер из бэйзлайна, которая обучена на трэйне и доп.данных из форума исправляем ошибки (словарь от kbrodt: https://yadi.sk/i/U7LxiJ_D1SEBVQ).
  2. Модель: seq2seq с архитектурой Emb(256)->3хBiLSTM(256)->attention(256)->3хLSTM(256). Она обучена на исходных данных.
  3. Что предсказываем:
    • для ФИО класса 0, где нет ошибок, модель просто предсказывает что подалось на вход, то есть просто копирует;
    • для ФИО класса 1, где есть ошибки, модель исправляет ошибки;
    • для ФИО класса 2, модель предсказывает слово nan.
  4. Таким образом мы одной моделью решаем сразу две задачи.

Как запустить:

  • preprocessing: eda.ipynb

  • train:

bash true_train.sh

Обученные веса тут: https://yadi.sk/d/gAyzmX7G6-NVSQ

  • inference:
bash true_inference.sh

About


Languages

Language:Python 96.1%Language:Jupyter Notebook 3.3%Language:Shell 0.6%