milleniums / High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
代码中错误定位在trainer.training(epoch)和writer.add_scalar('train_loss', train_loss.avg, curr_iter)请问应该如何更改

我也遇见了相同的问题，请问您解决了吗

我解决了这个问题，换用CPU之后可以发现是越界，然后找到是vis2gray.py中将一些点设置为16导致越界了。改为0就可以。

因为是之前为了完成大作业匆忙做的，细节记不太清了。刚刚看了一下，mask肯定是灰度的，data读入的时候就已经是单通道的数据了（mask = Image.open(mask_path).convert('L')），我应该是先用vis2gray把彩色标签转化为0-15的标签数据了，然后把处理好的标签作为训练集。

…

------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2022年10月10日(星期一) 上午10:07 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [milleniums/High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch] RuntimeError: CUDA error (Issue #8) 我解决了这个问题，换用CPU之后可以发现是越界，然后找到是vis2gray.py中将一些点设置为16导致越界了。改为0就可以。您好，我想问一下，是您重新用vis2gray将彩色mask处理成了灰度的mask？还是直接修改了vis2gray的方法。我看代码中没有调用vis2gray的方法啊。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

mask[mask >= num_class] = ignore_label
mask[mask <= 0] = ignore_label

dataset里面加这个就可以了

谁能给一份完整的训练代码和文件阿，这个缺各种文件，config.json 权重等等

xd你缺啥了，我记得可以自己训练的啊，没缺文件吧，需要自己从头开始训练的。我的放到服务器上了，你看你缺啥文件我发你。

谁能给一份完整的训练代码和文件阿，这个缺各种文件，config.json 权重等等

xd你缺啥了，我记得可以自己训练的啊，没缺文件吧，需要自己从头开始训练的。我的放到服务器上了，你看你缺啥文件我发你。

太感谢了兄弟能加个q详聊吗，比如训练时候这个jpg他是如何生成的

训练里面没有生成jpg呀，loss是用tensorboardX 保存的，这几行：

High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch/train.py

Line 239 in a68c44b

    
           writer.add_scalar(tag='train_loss_per_epoch', scalar_value=train_loss.avg, global_step=epoch, walltime=None)

推理的时候就是把预测结果保存下来的：

High-Resolution-Remote-Sensing-Semantic-Segmentation-PyTorch/train.py

Line 304 in a68c44b

    
           writer.add_image(tag='pres&GTs', img_tensor=val_visual, global_step=None, walltime=None)

@drucelee723 你新开一个issue说清楚就好了吧你描述的问题我都没怎么看懂

谁能给一份完整的训练代码和文件阿，这个缺各种文件，config.json 权重等等

xd你缺啥了，我记得可以自己训练的啊，没缺文件吧，需要自己从头开始训练的。我的放到服务器上了，你看你缺啥文件我发你。
请问一下，config.json这个文件是什么

谁能给一份完整的训练代码和文件阿，这个缺各种文件，config.json 权重等等

xd你缺啥了，我记得可以自己训练的啊，没缺文件吧，需要自己从头开始训练的。我的放到服务器上了，你看你缺啥文件我发你。

me too. 这个代码bug不断，好多地方续不上，兄弟share一下吧。