yitu-opensource / ConvBert

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

span light conv疑惑

psy2013GitHub opened this issue · comments

你好,我想请问下,在span light conv中,既然已经用tf.layers.separable_conv1d生成了带span信息的矩阵key_conv_attn_layer,为什么还需要点乘query_layer呢?对应于conv_attn_layer = tf.multiply(key_conv_attn_layer, query_layer)。感觉此处点乘不是很有必要

您好,因为self-attention中是image, 我们这里使用二者点乘的一个intuition是和self-attention保持一致,即产生的kernel也是input的两个线性变换乘积再经过softmax。
另一方面,我们认为产生的convolution kernel可以部分理解成当前token和附近neighbor tokens的关系,而不仅仅只是带有当前span的信息,所以我们采用了二者的点乘再经过softmax来生成卷积核。