DNN-based source separation

A PyTorch implementation of DNN-based source separation.

New information

v0.6.1: Add modules.

Model

Model	Reference	Done
WaveNet	WaveNet: A Generative Model for Raw Audio	✔
Wave-U-Net	Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation
Deep clustering	Single-Channel Multi-Speaker Separation using Deep Clustering
Chimera++	Alternative Objective Functions for Deep Clustering
DANet	Deep Attractor Network for Single-microphone Apeaker Aeparation	✔
ADANet	Speaker-independent Speech Separation with Deep Attractor Network
TasNet	TasNet: Time-domain Audio Separation Network for Real-time, Single-channel Speech Separation	✔
Conv-TasNet	Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation	✔
DPRNN-TasNet	Dual-path RNN: Efficient Long Sequence Modeling for Time-domain Single-channel Speech Separation	✔
Gated DPRNN-TasNet	Voice Separation with an Unknown Number of Multiple Speakers
FurcaNet	FurcaNet: An End-to-End Deep Gated Convolutional, Long Short-term Memory, Deep Neural Networks for Single Channel Speech Separation
FurcaNeXt	FurcaNeXt: End-to-End Monaural Speech Separation with Dynamic Gated Dilated Temporal Convolutional Networks
DeepCASA	Divide and Conquer: A Deep Casa Approach to Talker-independent Monaural Speaker Separation
Conditioned-U-Net	Conditioned-U-Net: Introducing a Control Mechanism in the U-Net for multiple source separations	✔
UMX (Open-Unmix)	Open-Unmix - A Reference Implementation for Music Source Separation	✔
Wavesplit	Wavesplit: End-to-End Speech Separation by Speaker Clustering
DPTNet	Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation	✔
D3Net	D3Net: Densely connected multidilated DenseNet for music source separation	✔
LaSAFT	LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned Source Separation
SepFormer	Attention is All You Need in Speech Separation
GALR	Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Reccurent networks	✔

Modules

Module	Reference	Done
Depthwise-separable convolution		✔
Gated Linear Units		✔
FiLM (Feature-wise Linear Modulation)	FiLM: Visual Reasoning with a General Conditioning Layer	✔
PoCM (Point-wise Convolutional Modulation)	LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned Source Separation	✔

Method related to training

Method	Reference	Done
Pemutation invariant training (PIT)	Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks	✔
One-and-rest PIT	Recursive Speech Separation for Unknown Number of Speakers	✔
Probabilistic PIT	Probabilistic Permutation Invariant Training for Speech Separation
Sinkhorn PIT	Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm	✔

Example

LibriSpeech example using Conv-TasNet

You can check other tutorials in <REPOSITORY_ROOT>/egs/tutorials/.

0. Preparation

cd <REPOSITORY_ROOT>/egs/tutorials/common/
. ./prepare_librispeech.sh --dataset_root <DATASET_DIR> --n_sources <#SPEAKERS>

1. Training

cd <REPOSITORY_ROOT>/egs/tutorials/conv-tasnet/
. ./train.sh --exp_dir <OUTPUT_DIR>

If you want to resume training,

. ./train.sh --exp_dir <OUTPUT_DIR> --continue_from <MODEL_PATH>

2. Evaluation

cd <REPOSITORY_ROOT>/egs/tutorials/conv-tasnet/
. ./test.sh --exp_dir <OUTPUT_DIR>

3. Demo

cd <REPOSITORY_ROOT>/egs/tutorials/conv-tasnet/
. ./demo.sh

About

A PyTorch implementation of DNN-based source separation.

Languages

Language:Python 80.9%Language:Shell 10.8%Language:Jupyter Notebook 8.2%