对计算相关性矩阵G的一些疑问？

Question

对计算相关性矩阵G的一些疑问？

liudonglei opened this issue 5 years ago · comments

原论文中在计算矩阵G的时候未写明三个矩阵的size，但是根据原论文中此处引用的2个文献里的计算方式：
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr，对应的，R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ，在这个地方，我觉得与我的理解不太一样，欢迎交流，

第二个是，我觉得得到R_star的那个卷积，过滤器宽度设置为1就可以了，

Dige Ai · Answer 1 · Wed May 01 2019 16:35:30 GMT+0800 (China Standard Time)

非常感谢您的指点，我会认真思考一下的😁

wangyankiko · Answer 2 · Mon May 06 2019 11:50:29 GMT+0800 (China Standard Time)

非常感谢您的指点，我会认真思考一下的😁

请问你的复现能够达到论文中的F1得分吗？

Dige Ai · Answer 3 · Mon May 06 2019 11:51:41 GMT+0800 (China Standard Time)

非常感谢您的指点，我会认真思考一下的😁

请问你的复现能够达到论文中的F1得分吗？

不行的，我认为还是有些问题，很遗憾我已经不做re相关的工作了，所以没有时间来更新

wangyankiko · Answer 4 · Mon May 06 2019 11:56:30 GMT+0800 (China Standard Time)

非常感谢您的指点，我会认真思考一下的😁
请问你的复现能够达到论文中的F1得分吗？

不行的，我认为还是有些问题，很遗憾我已经不做re相关的工作了，所以没有时间来更新

好的，谢谢~

fc-liu · Answer 5 · Thu Aug 01 2019 19:51:22 GMT+0800 (China Standard Time)

非常感谢您的指点，我会认真思考一下的grin
请问你的复现能够达到论文中的F1得分吗？

不行的，我认为还是有些问题，很遗憾我已经不做re相关的工作了，所以没有时间来更新

可以问下，还有些问题，指的是复现代码的问题，还是模型上的问题？

Dige Ai · Answer 6 · Thu Aug 01 2019 19:55:55 GMT+0800 (China Standard Time)

至于这个issue中楼主提出的改动方式我已经尝试过了，并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

liudl · Answer 7 · Tue Aug 06 2019 11:00:42 GMT+0800 (China Standard Time)

至于这个issue中楼主提出的改动方式我已经尝试过了，并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

是啊，我自己也尝试着改了一下，达不到作者的效果，我主要聚焦于attention机制那一块儿，原论文讲的不清不楚，好多张量的shape都不知道，我已经放弃运行这篇论文了。

Dige Ai · Answer 8 · Tue Aug 06 2019 11:29:11 GMT+0800 (China Standard Time)

至于这个issue中楼主提出的改动方式我已经尝试过了，并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

是啊，我自己也尝试着改了一下，达不到作者的效果，我主要聚焦于attention机制那一块儿，原论文讲的不清不楚，好多张量的shape都不知道，我已经放弃运行这篇论文了。

我相信刘老师在proj上不会有问题，也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了，baseline可以考虑PCNN或者CRCNN等等

liudl · Answer 9 · Tue Aug 06 2019 15:21:34 GMT+0800 (China Standard Time)

至于这个issue中楼主提出的改动方式我已经尝试过了，并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
是啊，我自己也尝试着改了一下，达不到作者的效果，我主要聚焦于attention机制那一块儿，原论文讲的不清不楚，好多张量的shape都不知道，我已经放弃运行这篇论文了。

我相信刘老师在proj上不会有问题，也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了，baseline可以考虑PCNN或者CRCNN等等

嗯嗯，是的。

nttmac · Answer 10 · Mon Sep 16 2019 16:10:15 GMT+0800 (China Standard Time)

原论文中在计算矩阵G的时候未写明三个矩阵的size，但是根据原论文中此处引用的2个文献里的计算方式：
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr，对应的，R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ，在这个地方，我觉得与我的理解不太一样，欢迎交流，

第二个是，我觉得得到R_star的那个卷积，过滤器宽度设置为1就可以了，

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素（列向量）和label的相似度。
但是，我有一个不理解的地方：原文中的R_star * AP得到的（dc，nr）矩阵，每一列已经表示了对于不同的label，句子的representation，直接拿这个representation和对应label的representation进行计算就可以得到距离了，为什么还要增加一步max操作呢？个人感觉max操作又把句子的表示固定化了。。。

liudl · Answer 11 · Mon Sep 16 2019 21:29:38 GMT+0800 (China Standard Time)

原论文中在计算矩阵G的时候未写明三个矩阵的size，但是根据原论文中此处引用的2个文献里的计算方式：
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr，对应的，R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ，在这个地方，我觉得与我的理解不太一样，欢迎交流，
第二个是，我觉得得到R_star的那个卷积，过滤器宽度设置为1就可以了，

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素（列向量）和label的相似度。
但是，我有一个不理解的地方：原文中的R_star * AP得到的（dc，nr）矩阵，每一列已经表示了对于不同的label，句子的representation，直接拿这个representation和对应label的representation进行计算就可以得到距离了，为什么还要增加一步max操作呢？个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

nttmac · Answer 12 · Mon Sep 16 2019 21:58:04 GMT+0800 (China Standard Time)

原论文中在计算矩阵G的时候未写明三个矩阵的size，但是根据原论文中此处引用的2个文献里的计算方式：
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr，对应的，R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ，在这个地方，我觉得与我的理解不太一样，欢迎交流，
第二个是，我觉得得到R_star的那个卷积，过滤器宽度设置为1就可以了，

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素（列向量）和label的相似度。
但是，我有一个不理解的地方：原文中的R_star * AP得到的（dc，nr）矩阵，每一列已经表示了对于不同的label，句子的representation，直接拿这个representation和对应label的representation进行计算就可以得到距离了，为什么还要增加一步max操作呢？个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

请问这篇文章有开源吗？还是自己复现的呀？

liudl · Answer 13 · Mon Sep 16 2019 22:15:52 GMT+0800 (China Standard Time)

原论文中在计算矩阵G的时候未写明三个矩阵的size，但是根据原论文中此处引用的2个文献里的计算方式：
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr，对应的，R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ，在这个地方，我觉得与我的理解不太一样，欢迎交流，
第二个是，我觉得得到R_star的那个卷积，过滤器宽度设置为1就可以了，

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素（列向量）和label的相似度。
但是，我有一个不理解的地方：原文中的R_star * AP得到的（dc，nr）矩阵，每一列已经表示了对于不同的label，句子的representation，直接拿这个representation和对应label的representation进行计算就可以得到距离了，为什么还要增加一步max操作呢？个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

请问这篇文章有开源吗？还是自己复现的呀？

我跑的就是这个repo里的代码。

Dige Ai · Answer 14 · Mon Sep 16 2019 23:17:24 GMT+0800 (China Standard Time)

@nttmac 本项目给出了acnn的一个pytorch版的实现。具体官方开源代码，我没有关注是否放出来。

nttmac · Answer 15 · Sun Sep 22 2019 13:02:53 GMT+0800 (China Standard Time)

@nttmac 本项目给出了acnn的一个pytorch版的实现。具体官方开源代码，我没有关注是否放出来。

好的，谢谢~