展示的demo效果用了多少语料

Question

展示的demo效果用了多少语料

josh-zhu opened this issue a year ago · comments

josh-zhu commented a year ago

如题，demo展示的效果已经不错了，请教下是使用了多少说话人的的语料库

adelacvg · Answer 1 · Mon Aug 28 2023 12:06:12 GMT+0800 (China Standard Time)

aishell3+vctk+原神3.5，估计200小时左右，350个说话人吧。有泛化性，但集外数据还是容易不像。每个说话人不需要太多数据，1000+音色应该就能有不错的泛化性。

josh-zhu · Answer 2 · Mon Aug 28 2023 12:30:23 GMT+0800 (China Standard Time)

了解，训练事件大概多长呢。我这边有200个校对过的中文说话人数据，在30分钟-1小时之间。感觉可以叠加在ahell3和vctk之上试一下呢

adelacvg · Answer 3 · Mon Aug 28 2023 15:23:17 GMT+0800 (China Standard Time)

demo的结果是在两张3090上训练了一天，训练更长时间音质会更好。bs设置是32，显存大概每张20g左右。

yiwei0730 · Answer 4 · Mon Aug 28 2023 16:39:01 GMT+0800 (China Standard Time)

想询问原神的资料要如何取得，或是您是否能够提供连结下载呢?

adelacvg · Answer 5 · Mon Aug 28 2023 17:16:33 GMT+0800 (China Standard Time)

想询问原神的资料要如何取得，或是您是否能够提供连结下载呢?

https://huggingface.co/datasets/Erythrocyte/Genshin_Datasets

yiwei0730 · Answer 6 · Thu Aug 31 2023 17:47:54 GMT+0800 (China Standard Time)

我使用一個250位語者的資料集，GPU一張，然後做訓練 bs設置32，不過我看預設的步數是100萬步，但總時長似乎需要666個小時，每2.5秒/it。想問一下這樣子的速度是合理的嗎? 還是是有問題的。您的兩張訓練一天大概是多少步數呢?
我顯存使用是38560MiB，一張GPU，bs 32。

adelacvg · Answer 7 · Thu Aug 31 2023 18:46:34 GMT+0800 (China Standard Time)

我使用一個250位語者的資料集，GPU一張，然後做訓練 bs設置32，不過我看預設的步數是100萬步，但總時長似乎需要666個小時，每2.5秒/it。想問一下這樣子的速度是合理的嗎? 還是是有問題的。您的兩張訓練一天大概是多少步數呢? 我顯存使用是38560MiB，一張GPU，bs 32。

可能是正常的，我有试过单卡3090，8bs 可以跑到3 it/s，两张卡32 bs大概是1.3 it/s。虽然设置了100万步，但其实30万步左右就能有不错的效果。如果很慢可以尝试调整num workers。loss没有太大参考价值，主要靠听tensorboard采样的结果。

yiwei0730 · Answer 8 · Fri Sep 01 2023 08:53:57 GMT+0800 (China Standard Time)

感謝您的回覆，但如果是雙卡使用的話accelerate config 的 gpus 應該就要設定是兩個了。300000/1.3 /86000 = 2.6天左右，
我改成16bs後，還是只有1.05 it/s 慢了好多。不知道是為什麼。
不過我有遇到，當訓練雙卡後，停止訓練後，再載入卻無法載入的情況(2 gpu時)。->有另開一個bug issue
This is my setting
compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,2
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

yiwei0730 · Answer 9 · Fri Sep 01 2023 09:28:22 GMT+0800 (China Standard Time)

額外多問一下v2跟原始model的差別在哪呢?
由於您tts的部分使用的是wip，故目前我是使用您tts專案下去做訓練嘗試。

adelacvg · Answer 10 · Fri Sep 01 2023 18:48:44 GMT+0800 (China Standard Time)

額外多問一下v2跟原始model的差別在哪呢? 由於您tts的部分使用的是wip，故目前我是使用您tts專案下去做訓練嘗試。

在readme中有写，主要就是去掉了encodec换成了mel，用vocos作为声码器。backbone换为unet1d，还加了一些从sd那里抄过来的结构，可以参照图示理解。

yiwei0730 · Answer 11 · Fri Sep 01 2023 19:37:46 GMT+0800 (China Standard Time)

oh! 昨天有更新ReadMe，抱歉沒有注意到。之前一直有follow 有發現多寫了在dataset的處理還有unet，所以還在思考是什麼方式。
unet的部分是 Semantic Segmentation of Anomalous Diffusion Using Deep Convolutional Networks 這個論文的架構嗎?

yiwei0730 · Answer 12 · Thu Sep 28 2023 09:32:42 GMT+0800 (China Standard Time)

@adelacvg 測試了一個1500+音色 600+hr的訓練資料集，測試集外數據還是會有大部分不太相似的情況。
是否真如論文所測試，需要更大量的數據集才能有集外的泛化性效果。