No broadcast on buffer in DDP training?

Question

No broadcast on buffer in DDP training?

tuanvu92 opened this issue 9 months ago · comments

When using multi-gpu, why does buffer broadcast is disabled as in this line:
https://github.com/NoFish-528/encodec-pytorch/blob/bd734c5dd2327456cc4b230ed6b3af9afd3d3145/train_multi_gpu.py#L269

In EuclideanCodebook module, the codebook is stored as buffer:
https://github.com/NoFish-528/encodec-pytorch/blob/bd734c5dd2327456cc4b230ed6b3af9afd3d3145/quantization/core_vq.py#L143

In my opinion, the buffer should be synchronized across all devices. Therefore, broadcast_buffers flag must be set to True.

Zhikang Niu · Answer 1 · Mon Oct 23 2023 09:49:44 GMT+0800 (China Standard Time)

Thanks for your attention. Because it will lead to some error and I'don't know how to fix this bug.

vuht · Answer 2 · Mon Oct 23 2023 15:00:56 GMT+0800 (China Standard Time)

Thanks. Can you describe what is the error?
From this dicussion, I added the buffer sync after each backward calls.

scaler.scale(loss).backward()
distrib.sync_buffer(model.buffers())

Training on 7 GPUs seems good. I will update the results if it works.

Zhikang Niu · Answer 3 · Mon Oct 23 2023 15:04:15 GMT+0800 (China Standard Time)

Thanks. Can you describe what is the error? From this dicussion, I added the buffer sync after each backward calls. ` scaler.scale(loss).backward()

distrib.sync_buffer(model.buffers()) `

Training on 7 GPUs seems good. I will update the results if it works.

thx. I will follow your mentioned discussion. And I find you used amp training? it may not be stable.

a897456 · Answer 4 · Thu Oct 26 2023 21:29:00 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

Zhikang Niu · Answer 5 · Thu Oct 26 2023 21:59:06 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

a897456 · Answer 6 · Fri Oct 27 2023 14:15:13 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

Zhikang Niu · Answer 7 · Fri Oct 27 2023 14:17:06 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

a897456 · Answer 8 · Fri Oct 27 2023 14:26:37 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

方便微信沟通吗？我是海洋大学学生，研究方向是语音压缩。

Zhikang Niu · Answer 9 · Fri Oct 27 2023 14:37:53 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

方便微信沟通吗？我是海洋大学学生，研究方向是语音压缩。17806289786

issue沟通即可，codebook部分可以查看quantization部分，或者可以自己debug查看码本的部分。

a897456 · Answer 10 · Fri Oct 27 2023 14:47:29 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

方便微信沟通吗？我是海洋大学学生，研究方向是语音压缩。17806289786

issue沟通即可，codebook部分可以查看quantization部分，或者可以自己debug查看码本的部分。

你可以训练出梅尔频谱的训练码本吗？或者说梅尔频谱你一般怎么去量化？

Zhikang Niu · Answer 11 · Fri Oct 27 2023 14:49:40 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

方便微信沟通吗？我是海洋大学学生，研究方向是语音压缩。17806289786

issue沟通即可，codebook部分可以查看quantization部分，或者可以自己debug查看码本的部分。

你可以训练出梅尔频谱的训练码本吗？或者说梅尔频谱你一般怎么去量化？

对不起，没有研究过。你可以查看下其他的仓库，祝好。

a897456 · Answer 12 · Fri Oct 27 2023 19:06:17 GMT+0800 (China Standard Time)

哥们，你的码本是怎么训练的？

论文里面有写码本如何训练的，EMA + commitment loss

代码里有体现码本的东西吗？

代码里均有，包括官方仓库也有，请查看代码

方便微信沟通吗？我是海洋大学学生，研究方向是语音压缩。17806289786

issue沟通即可，codebook部分可以查看quantization部分，或者可以自己debug查看码本的部分。

你可以训练出梅尔频谱的训练码本吗？或者说梅尔频谱你一般怎么去量化？

对不起，没有研究过。你可以查看下其他的仓库，祝好。

可以推荐一个训练码本的github吗？

Zhikang Niu · Answer 13 · Sat Oct 28 2023 14:04:33 GMT+0800 (China Standard Time)

@tuanvu92 Can I ask your encodec training normal when you broadcast buffer?