运行trainer时报错Error building extension 'fused_adam'

Question

运行trainer时报错Error building extension 'fused_adam'

J-G-Y opened this issue 9 months ago · comments

J-G-Y commented 9 months ago

如题

J-G-Y · Answer 1 · Sun Dec 17 2023 15:04:38 GMT+0800 (China Standard Time)

前置报错Unsupported gpu architecture 'compute_80'

logCong · Answer 2 · Wed Dec 27 2023 13:23:44 GMT+0800 (China Standard Time)

with torch.cuda.amp.autocast(enabled=True, dtype=torch.bfloat16) as autocast, torch.backends.cuda.sdp_kernel(enable_flash=False) as disable:
outputs = model(**batch, use_cache=False)
loss = outputs.loss
tr_loss += loss.item()
model.backward(loss)
torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
model.step()

Stark-zheng · Answer 3 · Thu Dec 28 2023 13:51:15 GMT+0800 (China Standard Time)

with torch.cuda.amp.autocast(enabled=True, dtype=torch.bfloat16) as autocast, torch.backends.cuda.sdp_kernel(enable_flash=False) as disable: outputs = model(**batch, use_cache=False) loss = outputs.loss tr_loss += loss.item() model.backward(loss) torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0) model.step()

请问这段代码加在哪里？我也和楼主一样的错误，是在：
model, optimizer, _, lr_scheduler = deepspeed.initialize(model=model, args=args, config=ds_config,
dist_init_required=True)
这里报的错误～

logCong · Answer 4 · Sun Jan 07 2024 18:03:20 GMT+0800 (China Standard Time)

听该是cuda版本的问题，cuda版本和装的要保持一致