对计算相关性矩阵G的一些疑问?
liudonglei opened this issue · comments
原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,
非常感谢您的指点,我会认真思考一下的😁
非常感谢您的指点,我会认真思考一下的😁
请问你的复现能够达到论文中的F1得分吗?
非常感谢您的指点,我会认真思考一下的😁
请问你的复现能够达到论文中的F1得分吗?
不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新
非常感谢您的指点,我会认真思考一下的😁
请问你的复现能够达到论文中的F1得分吗?不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新
好的,谢谢~
非常感谢您的指点,我会认真思考一下的grin
请问你的复现能够达到论文中的F1得分吗?不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新
可以问下,还有些问题,指的是复现代码的问题,还是模型上的问题?
至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。
至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。
我相信刘老师在proj上不会有问题,也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了,baseline可以考虑PCNN或者CRCNN等等
至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。我相信刘老师在proj上不会有问题,也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了,baseline可以考虑PCNN或者CRCNN等等
嗯嗯,是的。
原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,
我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。
原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。
这篇论文的代码我没继续跑了。
原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。这篇论文的代码我没继续跑了。
请问这篇文章有开源吗?还是自己复现的呀?
原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。这篇论文的代码我没继续跑了。
请问这篇文章有开源吗?还是自己复现的呀?
我跑的就是这个repo里的代码。