speech-processing

There are 50 repositories under speech-processing topic.

speechbrain / speechbrain
A PyTorch-based Speech Toolkit
asr audio audio-processing deep-learning huggingface language-model pytorch speaker-diarization speaker-recognition speaker-verification speech-enhancement speech-processing speech-recognition speech-separation speech-to-text speech-toolkit speechrecognition spoken-language-understanding transformers voice-recognition
Language:Python 10748
pyannote / pyannote-audio
Neural building blocks for speaker diarization: speech activity detection, speaker change detection, overlapped speech detection, speaker embedding
overlapped-speech-detection pretrained-models pytorch speaker-change-detection speaker-diarization speaker-embedding speaker-recognition speaker-verification speech-activity-detection speech-processing voice-activity-detection
Language:Jupyter Notebook 8657
snakers4 / silero-vad
Silero VAD: pre-trained enterprise-grade Voice Activity Detector
voice-detection voice-recognition voice-commands pytorch onnx voice-activity-detection voice-control onnx-runtime onnxruntime speech speech-processing vad
Language:Python 7282
pliang279 / awesome-multimodal-ml
Reading list for research topics in multimodal machine learning
multimodal-learning machine-learning representation-learning natural-language-processing computer-vision speech-processing robotics healthcare reading-list deep-learning reinforcement-learning
6702
microsoft / torchscale
Foundation Architecture for (M)LLMs
computer-vision machine-learning multimodal natural-language-processing pretrained-language-model speech-processing transformer translation
Language:Python 3119
linto-ai / whisper-timestamped
Multilingual Automatic Speech Recognition with word-level timestamps and confidence
deep-learning speech speech-recognition speech-to-text asr machine-learning python python3 pytorch attention-is-all-you-need attention-mechanism attention-model attention-network attention-seq2seq attention-visualization multilingual-models speaker-diarization speech-processing transformers whisper
Language:Python 2651
r9y9 / wavenet_vocoder
WaveNet vocoder
neural-vocoder python pytorch speech speech-processing speech-synthesis wavenet wavenet-vocoder
Language:Python 2367
resemble-ai / resemble-enhance
AI powered speech denoising and enhancement
denoise speech-denoising speech-enhancement speech-processing
Language:Python 2036
r9y9 / deepvoice3_pytorch
PyTorch implementation of convolutional neural networks-based text-to-speech synthesis models
tts speech-synthesis end-to-end speech-processing machine-learning pytorch python multi-speaker
Language:Python 1981
awesome-diarization
wq2012 / awesome-diarization
A curated list of awesome Speaker Diarization papers, libraries, datasets, and other resources.
awesome awesome-list deep-learning machine-learning speaker-diarization speech-processing speech-recognition
1815
IMS-Toucan
DigitalPhonetics / IMS-Toucan
Controllable and fast Text-to-Speech for over 7000 languages!
text-to-speech toolkit speech-synthesis deep-learning speech-processing tts pytorch speech
Language:Python 1655
TEN-framework / ten-vad
Voice Activity Detector (VAD) : low-latency, high-performance and lightweight
conversational-ai real-time speech-processing vad voice-activity-detection voice-commands voice-recognition audio automatic-speech-recognition speech silero-vad voice-agent
Language:C 1561
coqui-ai / open-speech-corpora
💎 A list of accessible speech corpora for ASR, TTS, and other Speech Technologies
tts stt speech-to-text text-to-speech speech-recognition speech-synthesis speech-processing voice-recognition voice-activity-detection voice-cloning speech-emotion-recognition speech-separation
1364
haoheliu / voicefixer
General Speech Restoration
speech-processing speech-synthesis speech-enhancement speech-analysis speech tts declipping dereverberation denoise super-resolution vocoder mel
Language:Python 1230
mravanelli / SincNet
SincNet is a neural architecture for efficiently processing raw audio samples.
deep-learning audio waveform filtering cnn convolutional-neural-networks speaker-recognition speaker-verification speaker-identification speech-recognition asr audio-processing speech-processing digital-signal-processing signal-processing neural-networks artificial-intelligence timit pytorch python
Language:Python 1202
ictnlp / StreamSpeech
StreamSpeech is an “All in One” seamless model for offline and simultaneous speech recognition, speech translation and speech synthesis.
seamless simultaneous-translation speech speech-recognition speech-synthesis speech-to-text speech-translation translation all-in-one machine-translation streaming-audio text-to-speech asr tts voice text-to-audio non-autoregressive speech-enhancement audio-processing speech-processing
Language:Python 1184
midas-research / audino
Open source audio annotation tool for humans
audio-processing speech-processing machine-learning annotation-tool audio-annotation python datasets
Language:JavaScript 1116
X-LANCE / SLAM-LLM
A Framework for Speech, Language, Audio, Music Processing with Large Language Model
audio-processing large-language-model multimodal-large-language-models music-processing peft speech-processing
Language:Python 914
nyrahealth / CrisperWhisper
Verbatim Automatic Speech Recognition with improved word-level timestamps and filler detection
asr audio detection filler recognition speech speech-recognition timestamps transcription verbatim whisper speech-processing
Language:Python 860
Ryuk17 / SpeechAlgorithms
You can find the speech algorithms you want here
speech-processing
Language:C 835
nanahou / Awesome-Speech-Enhancement
A tutorial for Speech Enhancement researchers and practitioners. The purpose of this repo is to organize the world’s resources for speech enhancement and make them universally accessible and useful.
speech-enhancement speech-processing signal-processing deep-neural-networks machine-learning-algorithms
Language:MATLAB 805
drethage / speech-denoising-wavenet
A neural network for end-to-end speech denoising
machine-learning deep-learning neural-networks speech-denoising speech wavenet end-to-end speech-processing
Language:Python 702
breizhn / DTLN
Tensorflow 2.x implementation of the DTLN real time speech denoising model. With TF-lite, ONNX and real-time audio processing support.
noise-reduction deep-learning audio real-time-audio audio-processing noise-suppression tensorflow dns-challenge dtln-model speech-denoising speech-processing speech-enhancement keras tf-lite raspberry-pi onnx
Language:Python 661
huawei-noah / Speech-Backbones
This is the main repository of open-sourced speech technology by Huawei Noah's Ark Lab.
speech-processing speech-recognition speech-synthesis
Language:Jupyter Notebook 595
pliang279 / MultiBench
[NeurIPS 2021] Multiscale Benchmarks for Multimodal Representation Learning
machine-learning multimodal-learning robotics natural-language-processing computer-vision deep-learning healthcare representation-learning speech-processing
Language:HTML 585
ddlBoJack / Speech-Resources
语音方向实验室/公司/资源/实习等，欢迎推荐或自荐
speech speech-processing
582
Audio-WestlakeU / FullSubNet
PyTorch implementation of "FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement."
speech-enhancement speech-processing speech-separation pytorch pretrained-model paper full-band sub-band single-channel noise-reduction denoising audio band narrow-band reproducible-research speech
Language:Python 579
spafe
SuperKogito / spafe
:sound: spafe: Simplified Python Audio Features Extraction
python dsp audio music audio-analysis music-information-retrieval features-extraction mfcc filterbank signal-processing frequency frequency-analysis time-frequency-analysis frequencies voice sound beat pitch speech-processing gammatone-filterbanks
Language:Python 476
arjo129 / uSpeech
Speech recognition toolkit for the arduino
arduino speech-recognition speech-processing signal
Language:C++ 475
microsoft / UniSpeech
UniSpeech - Large Scale Self-Supervised Learning for Speech
pytorch speech-recognition speech-processing speech diarization speech-separation speech-diarization speaker-verification
Language:Python 472
gemengtju / Tutorial_Separation
This repo summarizes the tutorials, datasets, papers, codes and tools for speech separation and speaker extraction task. You are kindly invited to pull requests.
speech-separation speech-processing speech-analysis deep-learning deep-neural-networks signal-processing
Language:MATLAB 466
r9y9 / pysptk
A python wrapper for Speech Signal Processing Toolkit (SPTK).
python-wrapper speech-processing python speech-synthesis speech dsp sptk digital-signal-processing
Language:Python 447
santi-pdp / pase
Problem Agnostic Speech Encoder
deep-learning multi-task-learning pytorch self-supervised-learning speech-processing unsupervised-learning waveform-analysis
Language:Python 444
novoic / surfboard
Novoic's audio feature extraction library
feature-extraction audio machine-learning audio-processing python speech-processing healthcare signal-processing alzheimers-disease parkinsons-disease
Language:Python 439
SforAiDl / Neural-Voice-Cloning-With-Few-Samples
This repository has implementation for "Neural Voice Cloning With Few Samples"
voice-cloning voice-synthesis deep-learning saidl speaker-adaptation tts speech-processing speaker-encodings voice mel-spectogram
Language:Python 435
Yuan-ManX / audio-development-tools
Audio Development Tools (ADT) is a project for advancing sound, speech, and music technologies, featuring components for machine learning, sound synthesis, speech and music generation, signal processing, game audio, digital audio workstations (DAWs), and more.
audio audio-processing music signal-processing speech-processing deep-learning dsp speech artificial-intelligence audio-generation machine-learning music-generation speech-synthesis
407

speech-processing

speechbrain / speechbrain

pyannote / pyannote-audio

snakers4 / silero-vad

pliang279 / awesome-multimodal-ml

microsoft / torchscale

linto-ai / whisper-timestamped

r9y9 / wavenet_vocoder

resemble-ai / resemble-enhance

r9y9 / deepvoice3_pytorch

wq2012 / awesome-diarization

DigitalPhonetics / IMS-Toucan

TEN-framework / ten-vad

coqui-ai / open-speech-corpora

haoheliu / voicefixer

mravanelli / SincNet

ictnlp / StreamSpeech

midas-research / audino

X-LANCE / SLAM-LLM

nyrahealth / CrisperWhisper

Ryuk17 / SpeechAlgorithms

nanahou / Awesome-Speech-Enhancement

drethage / speech-denoising-wavenet

breizhn / DTLN

huawei-noah / Speech-Backbones

pliang279 / MultiBench

ddlBoJack / Speech-Resources

Audio-WestlakeU / FullSubNet

SuperKogito / spafe

arjo129 / uSpeech

microsoft / UniSpeech

gemengtju / Tutorial_Separation

r9y9 / pysptk

santi-pdp / pase

novoic / surfboard

SforAiDl / Neural-Voice-Cloning-With-Few-Samples

Yuan-ManX / audio-development-tools