common-voice / commonvoice-fr

Tooling for producing French dataset for Common Voice

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Mise à jour Common Voice FR v4

lissyx opened this issue · comments

Le freeze a eu lieu hier 22 juin, nouvelle release attendue pour fin juin

La release est là

Ça se passe plutôt bien:

Loading TSV file:  /mnt/extracted/data/cv-fr/test.tsv
Importing mp3 files...
Progress |############################################################################################################################################################################################################################################################################################################################################################################################# |  99% completedImported 15767 samples.
Skipped 1 samples that failed on transcript validation.
Skipped 146 samples that were longer than 10 seconds.
Final amount of imported audio: 24:41:34 from 25:06:48.
Saving new DeepSpeech-formatted CSV file to:  /mnt/extracted/data/cv-fr/clips/test.csv
Writing CSV file for DeepSpeech.py as:  /mnt/extracted/data/cv-fr/clips/test.csv
Progress |##############################################################################################################################################################################################################################################################################################################################################################################################| 100% completed
Loading TSV file:  /mnt/extracted/data/cv-fr/dev.tsv
Importing mp3 files...
Progress |############################################################################################################################################################################################################################################################################################################################################################################################  |  99% completedImported 15817 samples.
Skipped 2 samples that failed on transcript validation.
Skipped 95 samples that were longer than 10 seconds.
Final amount of imported audio: 23:51:55 from 24:08:25.
Saving new DeepSpeech-formatted CSV file to:  /mnt/extracted/data/cv-fr/clips/dev.csv
Writing CSV file for DeepSpeech.py as:  /mnt/extracted/data/cv-fr/clips/dev.csv
Progress |##############################################################################################################################################################################################################################################################################################################################################################################################| 100% completed
Loading TSV file:  /mnt/extracted/data/cv-fr/train.tsv
Importing mp3 files...
Progress |##############################################################################################################################################################################################################################################################################################################################################################################################| 100% completedImported 364159 samples.
Skipped 11 samples that failed on transcript validation.
Skipped 2 samples that were too short to match the transcript.
Skipped 595 samples that were longer than 10 seconds.
Final amount of imported audio: 484:17:14 from 486:00:04.
Saving new DeepSpeech-formatted CSV file to:  /mnt/extracted/data/cv-fr/clips/train.csv
Writing CSV file for DeepSpeech.py as:  /mnt/extracted/data/cv-fr/clips/train.csv
Progress |##############################################################################################################################################################################################################################################################################################################################################################################################| 100% completed

484h utilisables après avoir regénéré en autorisant 32 dupes

Ça tourne pour l'apprentissage