SeolMuah/AudioDecription

음성지능 프로젝트

MAD 데이터셋 : "MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions", CVPR, 2022

- MAD 데이터 셋 영화 영상 및 오디오 보유 중 - 평균 100분 길이의 영화에서 시각장애인분들을 위한 영화 장면 해설 음성이 포함됩니다. - 영화 해설자는 1명이고 음성은 영화 소리와 같이 나오며, 영화 등장 인물들의 대사가 없을 때 주로 말합니다.