SABER-labs / SABERv2

SABER - Semi-Supervised Audio Baseline for Easy Reproduction

SABER - Semi-Supervised Audio Baseline for Easy Reproduction

Easily reproducible baselines for automatic speech recognition using semi-supervised contrastive learning.

Data Preparation

Download CommonVoice English Dataset
Setup config.toml to use the paths where data was downloaded.
Install requirements using pip3 install -r requirements.txt
Prepare data using python3 -m dataset.prepare

Train

Train using python3 -m train

Logging

Start tensorboard using tensorboard --logdir training_artifacts/tb_logs

TODOS

supervised training and dataset
Check online evaluator piece from Pybolts Simclr
~~Add more logs.~~
~~streaming convnets model~~
~~save and load projection weighs for training~~
~~Check if anything is missing from Athena Simclr~~

About

SABER - Semi-Supervised Audio Baseline for Easy Reproduction

MIT License

Languages

Language:Python 100.0%