Asunny2019 / 2023_AI_Academy_ASR

2023 AI Academy ASR

딥러닝을 이용한 음성인식 기초 실습

0. Tutorial

Tutorial for python and data science packages

python review
numpy
matplotlib

1. Audio file handling

Audio file handling using torchaudio

Load audio file(torchaudio.load)
Feature extraction(Mel-spectrogram, MFCC)

3. Audio Classification using MLP

Audio MNIST classification using MLP(torch.Linear)

4. CTC

Simple Exercise(model training using CTC loss) for Connectionist Temporal Classification

5. Whisper

Exercise using OpenAI - Whisper and Gradio

6. E2E ASR model finetune with Nemo

Quartznet Model finetune with Nemo(English to Korean)

7. WFST

Exercise for WFST using k2

C,L,G transducer
composition, determinization

Libraries

PyTorch : pytorch/pytorch
NeMo : Nvidia/NeMo
TorchAudio : pytorch/audio
NumPy : numpy/numpy
matplotlib :matplotlib/matplotlib
Whisper : openai/whisper
gradio : gradio-app/gradio

About

Languages

Language:Jupyter Notebook 100.0%