0913ktg / 0913ktg.github.io

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Style Control VALL-E Demo

  • enhuiz의 non-official VALL-E source code를 사용해 한국어 공개 데이터를 사용하여 학습한 모델의 추론 결과
  • https://github.com/enhuiz/vall-e
  • 기본 VALL-E와 Style token을 추가한 Style Control VALL-E 두 모델을 학습

학습 데이터

데이터 전처리

  • 재생되지 않는 음성 파일 제거
  • 라벨이 없는 음성 파일 제거
  • 음성 파일이 없는 라벨 제거
  • 라벨의 전사 텍스트에 한글을 제외한 문자(숫자, 영어, 일본어, 한자 등)이 있는 음성 파일과 라벨 제거
  • ffmpeg를 이용하여 sampling rate 24,000Hz로 변환

About


Languages

Language:HTML 85.8%Language:JavaScript 14.2%