audio-captioning

There are 1 repository under audio-captioning topic.

NVIDIA / audio-flamingo
PyTorch implementation of Audio Flamingo: Series of Advanced Audio Understanding Language Models
audio-captioning audio-language-models multimodal-large-language-models audio-question-answering audio-reasoning
Language:Python 739
soham97 / awesome-sound_event_detection
Reading list for research topics in Sound AI
audio-processing icassp interspeech sound-event-detection acoustic-scene-classification audio-captioning audio-generation audio-retrieval representation-learning zero-shot-learning
189
Labbeti / aac-datasets
Audio Captioning datasets for PyTorch.
pytorch audio caption datasets captioning audio-captioning dataset deep-learning
Language:Python 120
TheoCoombes / ClipCap
Using pretrained encoder and language models to generate captions from multimedia inputs.
audio-captioning encoder-decoder image-captioning language-model vision-transformer vqa
Language:Python 96
audio-captioning / clotho-dataset
Python code for handling the Clotho dataset.
audio-captioning audio audio-signal-processing deep-learning natural-language-processing captioning clotho-dataset
Language:Python 84
ilaria-manco / muscaps
Source code for "MusCaps: Generating Captions for Music Audio" (IJCNN 2021)
audio-captioning mir music-information-retrieval multimodal-deep-learning
Language:Jupyter Notebook 84
ilaria-manco / song-describer
Song Describer is a data collection platform for annotating music with textual descriptions.
annotations audio-captioning data-collection music-dataset
Language:Python 59
Labbeti / aac-metrics
Metrics for evaluating Automated Audio Captioning systems, designed for PyTorch.
audio audio-captioning captioning metrics text
Language:Python 59
an-tran528 / wavetransformer
Code base for WaveTransformer: A novel architecture for automated audio captioning
audio-captioning
Language:Python 43
audio-captioning / dcase-2020-baseline
Audio captioning baseline system for DCASE 2020 challenge.
audio-captioning audio-signal-processing captioning deep-learning deep-neural-networks machine-listening machine-learning signal-processing dcase2020 dcase
Language:Python 38
slSeanWU / beats-conformer-bart-audio-captioner
PyTorch implementation of the ICASSP-24 paper: "Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation"
audio-captioning clotho-dataset dcase-challenge pytorch transformers
Language:Jupyter Notebook 36
soham97 / sound_ai_progress
Tracking states of the arts and recent results (bibliography) on sound tasks.
acoustic-scene-classification audio-captioning audio-generation audio-processing audio-retrieval music-classification sound-event-detection
32
minguinho26 / Prefix_AAC_ICASSP2023
Official Implementation of "Prefix tuning for Automated Audio Captioning(ICASSP 2023)"
audio-captioning deep-learning icassp2023 pytorch-implementation
Language:Jupyter Notebook 30
lukewys / dcase_2020_T6
2nd place solution for 2020 DCASE challenge task 6 audio captioning. http://dcase.community/challenge2020/task-automatic-audio-captioning-results#wuyusong2020_t6
audio-captioning deep-learning
Language:Python 23
blmoistawinde / fense
Fluency ENhanced Sentence-bert Evaluation (FENSE), metric for audio caption evaluation. And Benchmark dataset AudioCaps-Eval, Clotho-Eval.
audio-captioning audiocaption benchmark evaluation-metrics
Language:Python 21
audio-captioning / caption-evaluation-tools
Tools for the evaluation of audio captioning.
audio-captioning machine-translation-metrics captioning
Language:Jupyter Notebook 17
ExplainableML / ZerAuCap
[NeurIPS 2023 - ML for Audio Workshop (Oral)] Zero-shot audio captioning with audio-language model guidance and audio context keywords
audio audio-captioning clotho-dataset large-language-models neurips-2023 opt zero-shot audiocaps
Language:Python 17
Labbeti / conette-audio-captioning
CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding
audio-captioning automated-audio-captioning
Language:Python 16
Sreyan88 / RECAP
Code for ICASSP 2024 Paper: RECAP: Retrieval-Augmented Audio Captioning
ai audio audio-captioning audio-processing clap generative-ai ml nlp rag retreival
Language:Python 14
abikaki / DCASE-Workshop-Papers
Workshop on Detection and Classification of Acoustic Scenes and Events
acoustic-event-detection acoustic-scene-classification acoustic-scenes dcase noise sound sound-classification workshop-materials audio-captioning seld sound-event-localization sound-event-localization-detection bioacoustic-event-detection foley-sound-synthesis audio dcase-challenge sound-event-detection
11
iOPENCap / awesome-unimodal-training
text-only training or language-free training for multimodal tasks (image/audio/video caption, retrieval, text2image)
audio-captioning awesome image-captioning text-only-supervision text2image video-captioning zero-shot language-free-training text-only-training composed-image-retrieval
11
satvik-dixit / mace
Code for the paper: MACE: Leveraging Audio for Evaluating Audio Captioning Systems
audio audio-captioning automated-audio-captioning clap evaluation-metrics
Language:Python 11
Labbeti / dcase2024-task6-baseline
DCASE2024 Challenge Task 6 baseline system (Automated Audio Captioning)
audio-captioning baseline dcase2024
Language:Python 6
audio-captioning / clotho-dataloader
PyTorch dataloader for Clotho dataset.
audio-captioning clotho-dataset pytorch dataloader
Language:Python 4
paniquex / Automated_Audio_Captioning_DCASE2020
6-th task solution of DCASE2020
attention audio audio-captioning audio-processing gru mixup
Language:Python 4
dr-costas / clotho-baseline-dataset
Code for using with the Clotho dataset
audio audio-captioning dataset machine-listening zenodo
Language:Python 3
zelaki / wsac
This reporsitory code form Weakly Supervised Automaed Audio Captioning via Text Only Training
audio-captioning clap dcase2023
Language:Python 2
Labbeti / dcase2021task6
IRIT-UPS DCASE 2021 AUDIO CAPTIONING SYSTEM
dcase2021 audio-captioning dcase2021task6 machine-learning deep-learning dcase
Language:Python 0

audio-captioning

NVIDIA / audio-flamingo

soham97 / awesome-sound_event_detection

Labbeti / aac-datasets

TheoCoombes / ClipCap

audio-captioning / clotho-dataset

ilaria-manco / muscaps

ilaria-manco / song-describer

Labbeti / aac-metrics

an-tran528 / wavetransformer

audio-captioning / dcase-2020-baseline

slSeanWU / beats-conformer-bart-audio-captioner

soham97 / sound_ai_progress

minguinho26 / Prefix_AAC_ICASSP2023

lukewys / dcase_2020_T6

blmoistawinde / fense

audio-captioning / caption-evaluation-tools

ExplainableML / ZerAuCap

Labbeti / conette-audio-captioning

Sreyan88 / RECAP

abikaki / DCASE-Workshop-Papers

iOPENCap / awesome-unimodal-training

satvik-dixit / mace

Labbeti / dcase2024-task6-baseline

audio-captioning / clotho-dataloader

paniquex / Automated_Audio_Captioning_DCASE2020

dr-costas / clotho-baseline-dataset

zelaki / wsac

Labbeti / dcase2021task6