sadevans / preprocess_mtedx

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Подготовка датасета mTEdx-ru для обучения модели AUTO-AVSR

Шаг 1. Загрузка датасета

Для того, чтобы скачать датасет, необходимо запустить файл download.py с некоторыми аргументами:

python3 download.py --dataset mtedx --root-path your/path/to/download/folder --src-lang ru

Обязательные аргументы:

  • --dataset - название датасета
  • --root-path - путь до местоположения загрузки датасета
  • --src-lang - язык датасета

Необязательные аргументы:

  • --download - требуется ли загрузка сжатого датасета. По умолчанию - True, однако если у вас уже скачан датасет, и вы хотите скачать только видео - передайте --download 0
  • --num-workers - количество параллельных процессов

Шаг 2. Предобработка датасета для обрезки видео

python prepare_mtedx.py --root-dir "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx/ru-ru/preproc" --dataset "mtedx_ru" --downloaded-path "/media/sadevans/T7/ЛИЧНОЕ/Diplom/datsets/mTedx" --seg-duration 24 --src-lang "ru"

Шаг 3. Обрезка ROI губ

Шаг 4. Создание SentencePiece модели

About


Languages

Language:Python 52.4%Language:Jupyter Notebook 47.5%Language:Shell 0.1%