audio-generation

There are 26 repositories under audio-generation topic.

LocalAI
mudler / LocalAI
:robot: The free, Open Source alternative to OpenAI, Claude and others. Self-hosted and local-first. Drop-in replacement for OpenAI, running on consumer-grade hardware. No GPU required. Runs gguf, transformers, diffusers and many more models architectures. Features: Generate Text, Audio, Video, Images, Voice Cloning, Distributed inference
ai api audio-generation distributed gemma gpt4all image-generation kubernetes llama llama3 llm mamba mistral musicgen p2p rerank rwkv stable-diffusion text-generation tts
Language:C++ 23665
FunAudioLLM / CosyVoice
Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
audio-generation cantonese chatbot chatgpt chinese cosyvoice cross-lingual english fine-grained fine-tuning gpt-4o japanese korean multi-lingual natural-language-generation python text-to-speech tts voice-cloning
Language:Python 5203
Amphion
open-mmlab / Amphion
Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.
audio-generation audio-synthesis audioldm audit fastspeech2 hifi-gan music-generation naturalspeech2 singing-voice-conversion speech-synthesis text-to-audio text-to-speech vall-e vits voice-conversion
Language:Python 4492
haoheliu / AudioLDM
AudioLDM: Generate speech, sound effects, music and beyond, with text.
audio-generation
Language:Python 2400
haoheliu / AudioLDM2
Text-to-Audio/Music Generation
audio-generation
Language:Python 2250
archinetai / audio-diffusion-pytorch
Audio generation using diffusion models, in PyTorch.
artificial-intelligence audio-generation deep-learning denoising-diffusion
Language:Python 1929
archinetai / audio-ai-timeline
A timeline of the latest AI models for audio generation, starting in 2023!
artificial-intelligence audio-generation machine-learning
1881
tts-generation-webui
rsxdalv / tts-generation-webui
TTS Generation Web UI (Bark, MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNet, StyleTTS2, MMS)
gradio machine-learning text-to-speech tts web ai audio-generation deep-learning torch bark generator music musicgen rvc tortoise-tts audiogen vocos seamlessm4t magnet styletts2
Language:TypeScript 1682
lucidrains / soundstorm-pytorch
Implementation of SoundStorm, Efficient Parallel Audio Generation from Google Deepmind, in Pytorch
artificial-intelligence attention-mechanism audio-generation deep-learning non-autoregressive transformers
Language:Python 1331
tango
declare-lab / tango
A family of diffusion models for text-to-audio generation.
audio-generation diffusion diffusion-models language-models large-language-models text-to-audio
Language:Python 990
NVIDIA / BigVGAN
Official PyTorch implementation of BigVGAN (ICLR 2023)
audio-generation audio-synthesis music-synthesis neural-vocoder singing-voice-synthesis speech-synthesis
Language:Python 852
Yuan-ManX / ai-audio-datasets
AI Audio Datasets (AI-ADS) 🎵, including Speech, Music, and Sound Effects, which can provide training data for Generative AI, AIGC, AI model training, intelligent audio tool development, and audio applications.
aigc artificial-intelligence audio audio-effect audio-generation datasets deep-learning machine-learning music-generation
472
researchmm / MM-Diffusion
[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
audio-generation content-creation diffusion-models multi-modality video-generation
Language:Python 389
modelscope / FunCodec
FunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al.
audio-generation audio-quantization codec encodec speech-synthesis speech-to-text tts voicecloning
Language:Python 349
v-iashin / SpecVQGAN
Source code for "Taming Visually Guided Sound Generation" (Oral at the BMVC 2021)
transformer vqvae gan pytorch audio-generation video-features melgan multi-modal video-understanding vggsound vas bmvc evaluation-metrics audio video
Language:Jupyter Notebook 341
metame-ai / awesome-audio-plaza
Daily tracking of awesome audio papers, including music generation, zero-shot tts, asr, audio generation
asr audio-generation awesome awesome-music-generation music-generation tts zero-shot-tts
313
Yuan-ManX / audio-development-tools
This is a list of sound, audio and music development tools which contains machine learning, audio generation, audio signal processing, sound synthesis, spatial audio, music information retrieval, music generation, speech recognition, speech synthesis, singing voice synthesis and more.
artificial-intelligence audio audio-generation audio-processing deep-learning dsp machine-learning music music-generation signal-processing speech speech-processing speech-synthesis
292
cabralpinto / modular-diffusion
Python library for designing and training your own Diffusion Models with PyTorch.
audio-generation deep-learning diffusion-models image-generation machine-learning modular-design python pytorch text-generation transformer u-net
Language:Python 265
sony / bigvsan
Pytorch implementation of BigVSAN
audio-generation audio-synthesis gan neural-vocoder pytorch speech-synthesis
Language:Python 196
galgreshler / Catch-A-Waveform
Official pytorch implementation of the paper: "Catch-A-Waveform: Learning to Generate Audio from a Single Short Example" (NeurIPS 2021)
audio-generation single-example raw-waveforms gan bandwidth-extension audio-super-resolution audio-inpainting audio-denoising music-generation speech-synthesis
Language:Python 187
soham97 / awesome-sound_event_detection
Reading list for research topics in Sound AI
audio-processing icassp interspeech sound-event-detection acoustic-scene-classification audio-captioning audio-generation audio-retrieval representation-learning zero-shot-learning
162
happylittlecat2333 / Auffusion
Official codes and models of the paper "Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation"
audio-generation diffusion diffusion-models large-language-models text-to-audio
Language:Jupyter Notebook 145
archinetai / audio-data-pytorch
A collection of useful audio datasets and transforms for PyTorch.
artifical-intelligense audio-generation datasets deep-learning pytorch
Language:Python 130
archinetai / audio-diffusion-pytorch-trainer
Trainer for audio-diffusion-pytorch
artificial-intelligence audio-generation deep-learning denoising-diffusion
Language:Python 127
ilaria-manco / word2wave
Word2Wave: a framework for generating short audio samples from a text prompt using WaveGAN and COALA.
ai-music audio-generation music-generation text-to-audio
Language:Python 119
RoySheffer / im2wav
Official implementation of the pipeline presented in I hear your true colors: Image Guided Audio Generation
audio machine-learning pytorch audio-generation image-to-audio video-to-audio
Language:Python 103
sony / soundctm
Pytorch implementation of SoundCTM
audio-generation diffusion-models pytorch text-to-audio
Language:Python 69
bark-speaker-directory
rsxdalv / bark-speaker-directory
Site for sharing Bark voices
ai audio-generation bark deep-learning machine-learning text-to-speech tts web
Language:TypeScript 47
olaviinha / NeuralTextToAudio
Text prompt steered synthetic audio generators
text2music text2audio audio-generation audio-synthesis audioldm music-generation voice-synthesis mubert mubertai voice-cloning audio audio-processing colab colab-notebook
Language:Jupyter Notebook 44
musicgen-prompts
rsxdalv / musicgen-prompts
Site for sharing MusicGen + AudioGen Prompts and Creations
ai audio-generation generator machine-learning musicgen audiogen
Language:TypeScript 39
Yuanshi9815 / LiteFocus
[Interspeech 2024] LiteFocus is a tool designed to accelerate diffusion-based TTA model, now implemented with the base model AudioLDM2.
audio-generation diffusion-models generative-ai
Language:Python 31
0417keito / JEN-1-COMPOSER-pytorch
Unofficial implementation JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation(https://arxiv.org/abs/2310.19180)
artificial-intelligence deep-learning music music-generation singing-voice-synthesis svs text-to-speech tts audio audio-generation consistency-models diffusion-models
Language:Python 28
soham97 / sound_ai_progress
Tracking states of the arts and recent results (bibliography) on sound tasks.
acoustic-scene-classification audio-captioning audio-generation audio-processing audio-retrieval music-classification sound-event-detection
28
Bai-YT / ConsistencyTTA
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation
audio-generation audio-processing consistency-models diffusion-models ldm
Language:Python 27
neeleshpandey / AutomatedNewsChannel
This is a Piece of code that fetches news using an API and Converts it into a NEWS video
newsapi python3 youtube-api-v3 moviepy gtts urllib3 python video-generation audio-generation
Language:Python 14
heng-hw / V2A-Mapper
[AAAI 2024] V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models
audio audio-generation image-to-audio video-to-audio vision-to-audio aaai2024
13

audio-generation

mudler / LocalAI

FunAudioLLM / CosyVoice

open-mmlab / Amphion

haoheliu / AudioLDM

haoheliu / AudioLDM2

archinetai / audio-diffusion-pytorch

archinetai / audio-ai-timeline

rsxdalv / tts-generation-webui

lucidrains / soundstorm-pytorch

declare-lab / tango

NVIDIA / BigVGAN

Yuan-ManX / ai-audio-datasets

researchmm / MM-Diffusion

modelscope / FunCodec

v-iashin / SpecVQGAN

metame-ai / awesome-audio-plaza

Yuan-ManX / audio-development-tools

cabralpinto / modular-diffusion

sony / bigvsan

galgreshler / Catch-A-Waveform

soham97 / awesome-sound_event_detection

happylittlecat2333 / Auffusion

archinetai / audio-data-pytorch

archinetai / audio-diffusion-pytorch-trainer

ilaria-manco / word2wave

RoySheffer / im2wav

sony / soundctm

rsxdalv / bark-speaker-directory

olaviinha / NeuralTextToAudio

rsxdalv / musicgen-prompts

Yuanshi9815 / LiteFocus

0417keito / JEN-1-COMPOSER-pytorch

soham97 / sound_ai_progress

Bai-YT / ConsistencyTTA

neeleshpandey / AutomatedNewsChannel

heng-hw / V2A-Mapper