dgai91 / pytorch-acnn-model

code of Relation Classification via Multi-Level Attention CNNs

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

对计算相关性矩阵G的一些疑问?

liudonglei opened this issue · comments

commented

原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,

第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,

非常感谢您的指点,我会认真思考一下的😁

非常感谢您的指点,我会认真思考一下的😁

请问你的复现能够达到论文中的F1得分吗?

非常感谢您的指点,我会认真思考一下的😁

请问你的复现能够达到论文中的F1得分吗?

不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新

非常感谢您的指点,我会认真思考一下的😁
请问你的复现能够达到论文中的F1得分吗?

不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新

好的,谢谢~

非常感谢您的指点,我会认真思考一下的grin
请问你的复现能够达到论文中的F1得分吗?

不行的,我认为还是有些问题,很遗憾我已经不做re相关的工作了,所以没有时间来更新

可以问下,还有些问题,指的是复现代码的问题,还是模型上的问题?

至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

commented

至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。

至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。

是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。

我相信刘老师在proj上不会有问题,也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了,baseline可以考虑PCNN或者CRCNN等等

commented

至于这个issue中楼主提出的改动方式我已经尝试过了,并没有什么改变。事实上这个模型给我的感觉是对数据过度降维了。
是啊,我自己也尝试着改了一下,达不到作者的效果,我主要聚焦于attention机制那一块儿,原论文讲的不清不楚,好多张量的shape都不知道,我已经放弃运行这篇论文了。

我相信刘老师在proj上不会有问题,也许实现不出来效果是我们在data的处理上。但是我认为没必要纠结这些细节了。re这条路再走也是基于transformer的研究了,baseline可以考虑PCNN或者CRCNN等等

嗯嗯,是的。

原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,

第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。

commented

原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

请问这篇文章有开源吗?还是自己复现的呀?

commented

原论文中在计算矩阵G的时候未写明三个矩阵的size,但是根据原论文中此处引用的2个文献里的计算方式:
1 ABCNN: attention-based convolutional neural network for modeling sentence pairs.
2 Attentive pooling networks
我觉得原文中G的size应该是 n * nr,对应的,R_star * AP的size是(dc,nr) 每行取max后缩小为向量(dc,1)
而你的代码里G的size是 n * dc ,在这个地方,我觉得与我的理解不太一样,欢迎交流,
第二个是,我觉得得到R_star的那个卷积,过滤器宽度设置为1就可以了,

我也觉得原文中G的size是n * nr~G的作用是表示R*中每个元素(列向量)和label的相似度。
但是,我有一个不理解的地方:原文中的R_star * AP得到的(dc,nr)矩阵,每一列已经表示了对于不同的label,句子的representation,直接拿这个representation和对应label的representation进行计算就可以得到距离了,为什么还要增加一步max操作呢?个人感觉max操作又把句子的表示固定化了。。。

这篇论文的代码我没继续跑了。

请问这篇文章有开源吗?还是自己复现的呀?

我跑的就是这个repo里的代码。

@nttmac 本项目给出了acnn的一个pytorch版的实现。具体官方开源代码,我没有关注是否放出来。

@nttmac 本项目给出了acnn的一个pytorch版的实现。具体官方开源代码,我没有关注是否放出来。

好的,谢谢~