You can get more details in http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=392&id=516
- Currently requires python >= 3.6
- FFmpeg
- youtube_dl
- pydub
- youtube_transcript_api
pip install vctube
from vctube import VCtube
playlist_name=""
playlist_url = ""
lang = "" #ex) ko, en, fr, de...
vc = VCtube(playlist_name, playlist_url, lang)
vc.download_audio() #download audios from youtube
vc.download_captions() #download captions from youtube
vc.audio_split() #split audio with captions
datasets
|- playlist name
|- metadata.csv
|- alignment.json
|- wavs
├── 1.wav
├── 2.wav
├── 3.wav
└── ...
and metadata.csv
should look like:
{
"0001.wav|그래서 사람들도 날 핍이라고 불렀다.",
"0002.wav|크리스마스 덕분에 부엌에 먹을게 가득했다.",
"0003.wav|조가 자신이 그 사람이라고 나섰다.",
...
}
and alignment.json
should look like:
{
"./datasets/playlist name/wavs/0001.wav": "그래서 사람들도 날 핍이라고 불렀다.",
"./datasets/playlist name/wavs/0002.wav": "크리스마스 덕분에 부엌에 먹을게 가득했다.",
"./datasets/playlist name/wavs/0003.wav": "조가 자신이 그 사람이라고 나섰다.",
...
}