speech-recognition

There are 279 repositories under speech-recognition topic.

transformers
huggingface / transformers
🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.
audio deep-learning deepseek gemma glm hacktoberfest llm machine-learning model-hub natural-language-processing nlp pretrained-models python pytorch pytorch-transformers qwen speech-recognition transformer vlm
Language:Python 152408
whisper.cpp
ggml-org / whisper.cpp
Port of OpenAI's Whisper model in C/C++
inference openai speech-recognition speech-to-text transformer whisper
Language:C++ 44423
mozilla / DeepSpeech
DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.
deep-learning machine-learning neural-networks tensorflow speech-recognition speech-to-text deepspeech embedded on-device offline
Language:C++ 26652
SYSTRAN / faster-whisper
Faster Whisper transcription with CTranslate2
deep-learning inference openai quantization speech-recognition speech-to-text transformer whisper
Language:Python 18973
m-bain / whisperX
WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
asr speech speech-recognition speech-to-text whisper
Language:Python 18679
leon
leon-ai / leon
🧠 Leon is your open-source personal assistant.
leon personal-assistant nodejs python ai artificial-intelligence speech-to-text text-to-speech speech-recognition speech-synthesis flite assistant virtual-assistant chatbot bot voice-assistant automation offline privacy ai-assistant
Language:TypeScript 16786
kaldi-asr / kaldi
kaldi-asr/kaldi is the official location of the Kaldi project.
c-plus-plus cuda kaldi shell speaker-id speaker-verification speech speech-recognition speech-to-text
Language:Shell 15213
NVIDIA / DeepLearningExamples
State-of-the-Art Deep Learning scripts organized by models - easy to train and deploy with reproducible accuracy and performance on enterprise-grade infrastructure.
computer-vision deep-learning drug-discovery forecasting large-language-models mxnet paddlepaddle pytorch recommender-systems speech-recognition speech-synthesis tensorflow tensorflow2 translation nlp
Language:Jupyter Notebook 14553
alphacep / vosk-api
Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node
android asr deep-learning deep-neural-networks deepspeech google-speech-to-text ios kaldi offline privacy python raspberry-pi speaker-identification speaker-verification speech-recognition speech-to-text speech-to-text-android stt voice-recognition vosk
Language:Jupyter Notebook 13595
modelscope / FunASR
A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
audio-visual-speech-recognition conformer dfsmn paraformer pretrained-model punctuation pytorch rnnt speaker-diarization speech-recognition speechgpt speechllm vad voice-activity-detection whisper
Language:Python 13423
kmario23 / deep-learning-drizzle
Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP by learning from these exciting lectures!!
machine-learning deep-learning deep-neural-networks pattern-recognition computer-vision optimization visual-recognition reinforcement-learning deep-reinforcement-learning natural-language-processing artificial-neural-networks artificial-intelligence-algorithms probabilistic-graphical-models bayesian-statistics speech-recognition graph-neural-networks medical-imaging geometric-deep-learning explainable-ai probability
Language:HTML 12723
PaddlePaddle / PaddleSpeech
Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System, End-to-End Speech Translation and Keyword Spotting. Won NAACL2022 Best Demo Award.
transformer conformer speech-translation streaming-asr speech-alignment punctuation-restoration streaming-tts speech-synthesis tts asr kws speech-recognition sound-classification voice-cloning vocoder voice-recognition self-supervised-learning wav2vec2 whisper code-switch
Language:Python 12345
speechbrain / speechbrain
A PyTorch-based Speech Toolkit
speech-recognition speech-toolkit speaker-recognition speech-to-text speech-enhancement speech-separation audio audio-processing speech-processing speechrecognition asr voice-recognition spoken-language-understanding speaker-diarization speaker-verification pytorch huggingface transformers language-model deep-learning
Language:Python 10766
espnet / espnet
End-to-End Speech Processing Toolkit
deep-learning end-to-end chainer pytorch kaldi speech-recognition speech-synthesis speech-translation machine-translation voice-conversion speech-enhancement speech-separation singing-voice-synthesis speaker-diarization spoken-language-understanding text-to-speech
Language:Python 9575
openvinotoolkit / openvino
OpenVINO™ is an open source toolkit for optimizing and deploying AI inference
ai computer-vision deep-learning deploy-ai diffusion-models generative-ai good-first-issue inference llm-inference natural-language-processing nlp openvino optimize-ai performance-boost recommendation-system speech-recognition stable-diffusion transformers yolo
Language:C++ 9194
Uberi / speech_recognition
Speech recognition module for Python, supporting several engines and APIs, online and offline.
python audio speech-recognition speech-to-text
Language:Python 8896
nl8590687 / ASRT_SpeechRecognition
A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统
tensorflow cnn ctc python keras speech-recognition speech-to-text chinese-speech-recognition asrt python3
Language:Python 8290
FunAudioLLM / SenseVoice
Multilingual Voice Understanding Model
ai aigc asr audio-event-classification cross-lingual gpt-4o llm multilingual python pytorch speech-emotion-recognition speech-recognition speech-to-text
Language:Python 6920
TalAter / annyang
💬 Speech recognition for your site
speech-recognition speech speech-to-text voice
Language:JavaScript 6663
flashlight / wav2letter
Facebook AI Research's Automatic Speech Recognition Toolkit
wav2letter speech-recognition end-to-end deep-learning cpp
Language:C++ 6442
PaddlePaddle / PaddleX
All-in-One Development Tool based on PaddlePaddle
classification segmentation deployment ocr time-series pp-chatocr ai-pipelines object-detection formula-recognition layout-detection pdf2markdown speech-recognition
Language:Python 5878
argmaxinc / WhisperKit
On-device Speech Recognition for Apple Silicon
inference ios speech-recognition swift whisper transformers macos visionos watchos
Language:Swift 5182
modelscope / FunClip
Open-source, accurate and easy-to-use video speech recognition & clipping tool, LLM based AI clipping intergrated.
gradio gradio-python-llm llm speech-recognition speech-to-text subtitles-generator video-clip video-subtitles
Language:Python 5127
MahmoudAshraf97 / whisper-diarization
Automatic Speech Recognition with Speaker Diarization based on OpenAI Whisper
asr speaker-diarization speech speech-recognition speech-to-text whisper
Language:Jupyter Notebook 5116
voice-pro
abus-aikorea / voice-pro
Gradio WebUI for creators and developers, featuring key TTS (Edge-TTS, kokoro) and zero-shot Voice Cloning (E2 & F5-TTS, CosyVoice), with Whisper audio processing, YouTube download, Demucs vocal isolation, and multilingual translation.
audiobook faster-whisper gradio karaoke podcasts speech-recognition speech-synthesis speech-to-text subtitles text-to-speech transcription translator tts voice-cloning voice-conversion webui whisper whisperx yt-dlp
Language:Python 5015
wenet-e2e / wenet
Production First and Production Ready End-to-End Speech Recognition Toolkit
e2e-models pytorch asr transformer conformer production-ready automatic-speech-recognition speech-recognition whisper
Language:Python 4898
sanchit-gandhi / whisper-jax
JAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU.
deep-learning jax speech-recognition speech-to-text whisper
Language:Jupyter Notebook 4640
yanshengjia / ml-road
Machine Learning Resources, Practice and Research
machine-learning deep-learning nlp computer-vision speech-recognition tensorflow pytorch agentic-ai
Language:Python 4518
Picovoice / porcupine
On-device wake word detection powered by deep learning
handsfree hotword hotword-detection hotword-detector keyword-spotter keyword-spotting on-device speech-recognition trigger-word-detection voice-activation wake-word wake-word-detection wake-word-engine
Language:Python 4486
cmusphinx / pocketsphinx
A small speech recognizer
speech-recognition python c
Language:C 4217
jianchang512 / stt
Voice Recognition to Text Tool / 一个离线运行的本地音视频转字幕工具，输出json、srt字幕、纯文字格式
speech speech-recognition speech-to-text stt
Language:Python 3984
huggingface / distil-whisper
Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word error rate.
audio speech-recognition whisper
Language:Python 3979
zzw922cn / awesome-speech-recognition-speech-synthesis-papers
Automatic Speech Recognition (ASR), Speaker Verification, Speech Synthesis, Text-to-Speech (TTS), Language Modelling, Singing Voice Synthesis (SVS), Voice Conversion (VC)
automatic-speech-recognition papers roadmap rnn cnn dnn attention-mechanism seq2seq acoustic-model timit-dataset tts language-model speaker-verification speech-recognition speech-synthesis neural-network recognition-synthesis diffusion-models singing-voice-synthesis voice-conversion
3088
ahmetoner / whisper-asr-webservice
OpenAI Whisper ASR Webservice API
automatic-speech-recognition speech-recognition speech-to-text openai-whisper docker asr speech
Language:Python 3008
Blaizzy / mlx-audio
A text-to-speech (TTS), speech-to-text (STT) and speech-to-speech (STS) library built on Apple's MLX framework, providing efficient speech analysis on Apple Silicon.
apple-silicon audio-processing mlx multimodal speech-recognition speech-synthesis speech-to-text text-to-speech transformers
Language:Python 2904
HeyWillow / willow
Open source, local, and self-hosted Amazon Echo/Google Home competitive Voice Assistant alternative
alexa deep-learning echo esp-adf esp-idf esp32 home-assistant home-automation speech-recognition speech-to-text whisper google-home privacy
Language:C 2898