SeolMuah / AudioDecription

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

음성지능 프로젝트

설명 : 비디오 오디오의 비디오 장면을 설명하는 해설자 한명의 음성 추출

프로젝트 목적

  • 비디오 장면 검색 및 비디오 캡셔닝을 위한 데이터 셋 구축

데이터 셋

  • MAD 데이터셋 : "MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions", CVPR, 2022

- MAD 데이터 셋 영화 영상 및 오디오 보유 중 - 평균 100분 길이의 영화에서 시각장애인분들을 위한 영화 장면 해설 음성이 포함됩니다. - 영화 해설자는 1명이고 음성은 영화 소리와 같이 나오며, 영화 등장 인물들의 대사가 없을 때 주로 말합니다.

관련 기술

  • Voice Filtering

About