[BUG] qwen-vl 第一阶段训练loss下降后升高了，模型训崩了

Question

liuheng0111 opened this issue 5 months ago · comments

模拟qwen-vl的第一阶段训练,采用了相同的训练参数，也对vit采用了learning rate decay，训练过程中loss先慢慢下降，但后面升高了，升高之后发现模型训崩了，排除了训练数据问题，不知道是哪里的问题，放开vit训练久了之后就崩了？

No response

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

No response

HalcyonLiang · Answer 1 · Sun May 26 2024 19:48:36 GMT+0800 (China Standard Time)

大佬有查到原因吗？