移植loss问题

Question

移植loss问题

chapmancpp opened this issue 6 years ago · comments

大佬好！
我把代码移植到python3.6+pytorch0.4下面。在训练的时候，loss.py里面报错。
当一个batch块里面出现相同的ID的图片的时候这边is_pos 计算的就不是对角矩阵了。
is_pos = labels.expand(N, N).eq(labels.expand(N, N).t())
is_neg = labels.expand(N, N).ne(labels.expand(N, N).t())
然后导致后面代码：
dist_ap, relative_p_inds = torch.max(
dist_mat[is_pos_test].contiguous().view(N, -1), 1, keepdim=True)#报错
错误提示：
RuntimeError: invalid argument 2: size '[16 x -1]' is invalid for input with 18 elements at ..\src\TH\THStorage.c:37

请问这里我是否可以直接定义一个batch大小的对角阵给is_pos 。还是is_pos 代码里面就可以出现非对角矩阵。
当我将is_pos 改成一直是对角矩阵的时候。只有全局loss，loss的值开始就非常的低，请问可能是什么问题啊。

Houjing Huang · Answer 1 · Mon Jun 18 2018 00:24:05 GMT+0800 (China Standard Time)

多谢你的关注！
这个is_pos的第i行表示所有样本和第i个样本之间是否是同一个id，对角线上肯定是True，如果第j, k, l个样本和第i个样本同一个id，那么第i行的第j, k, l应该是True。is_pos一般情况下不是对角阵。这个错误我没能一眼看出来是哪里的不兼容。

CaoPan · Answer 2 · Tue Jun 19 2018 11:49:39 GMT+0800 (China Standard Time)

N = dist_mat.size(0) #这是您N的定义
您之前定义了N的大小，为矩阵大小，
然而当队列中出现相同的ID的时候，即为非对角矩阵时，那么
is_pos = labels.expand(N, N).eq(labels.expand(N, N).t()) ，
dist_mat[is_pos]的维数就会不等于N。
那么，下面很多用N定义的就会报错了，比如下面这行：
dist_ap, relative_p_inds = torch.max(
dist_mat[is_pos_test].contiguous().view(N, -1), 1, keepdim=True)#报错

dist_mat[is_pos_test].contiguous()的维数不等于N，就不能用view（N，1）.您看我理解的对吗，是不是我哪边理解错了。

Houjing Huang · Answer 3 · Tue Jun 19 2018 22:56:18 GMT+0800 (China Standard Time)

举个例子，labels是[1, 2, 3, 4, 2, 1, 3, 4, 4, 2, 1, 3]，也即4个id，每个id有3张图片，那么is_pos应该是（为了简化，下面的1表示True, 0表示False）:

1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1

对角线都是1，每一行总共有3个1，所以dist_mat[is_pos].contiguous().view(N, -1)里边的-1就相当于3，dist_mat[is_pos].contiguous().view(N, -1)的结果是一个12*3的数组。

我发现上面你的代码中好像有点问题，dist_ap, relative_p_inds = torch.max( dist_mat[is_pos_test].contiguous().view(N, -1), 1, keepdim=True)这里边is_pos_test不对吧，应该是is_pos。

CaoPan · Answer 4 · Wed Jun 20 2018 16:11:11 GMT+0800 (China Standard Time)

后来发现是我对triplet loss的理解问题。哈哈，谢谢大佬。大佬在国外的吗？羡慕。

Houjing Huang · Answer 5 · Sat Jun 23 2018 12:46:05 GMT+0800 (China Standard Time)

大佬这个还是不敢当。。没在国外啊。。。

wooooo · Answer 6 · Wed Jun 17 2020 15:21:24 GMT+0800 (China Standard Time)

后来发现是我对triplet loss的理解问题。哈哈，谢谢大佬。大佬在国外的吗？羡慕。

N = dist_mat.size(0) #这是您N的定义
您之前定义了N的大小，为矩阵大小，
然而当队列中出现相同的ID的时候，即为非对角矩阵时，那么
is_pos = labels.expand(N, N).eq(labels.expand(N, N).t()) ，
dist_mat[is_pos]的维数就会不等于N。
那么，下面很多用N定义的就会报错了，比如下面这行：
dist_ap, relative_p_inds = torch.max(
dist_mat[is_pos_test].contiguous().view(N, -1), 1, keepdim=True)#报错

dist_mat[is_pos_test].contiguous()的维数不等于N，就不能用view（N，1）.您看我理解的对吗，是不是我哪边理解错了。

我也遇到了这个问题，你解决了吗？

wooooo · Answer 7 · Wed Jun 17 2020 15:36:44 GMT+0800 (China Standard Time)

举个例子，labels是[1, 2, 3, 4, 2, 1, 3, 4, 4, 2, 1, 3]，也即4个id，每个id有3张图片，那么is_pos应该是（为了简化，下面的1表示True, 0表示False）:
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0
0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0
1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0
0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1
对角线都是1，每一行总共有3个1，所以dist_mat[is_pos].contiguous().view(N, -1)里边的-1就相当于3，dist_mat[is_pos].contiguous().view(N, -1)的结果是一个12*3的数组。

我发现上面你的代码中好像有点问题，dist_ap, relative_p_inds = torch.max( dist_mat[is_pos_test].contiguous().view(N, -1), 1, keepdim=True)这里边is_pos_test不对吧，应该是is_pos。

要是labels = [1, 2, 3, 4, 2, 1, 3, 4, 4, 2, 1, 1]这样的话，不就没法搞了吗