百亿参数的中英文双语基座大模型
Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
junphine opened this issue 9 months ago · comments
我理解旋转位置编码应该在取得query和key的向量之后计算,这里为什么是在之前计算? input_sub具体指的是什么?作为旋转位置编码的x_pos参数传入,发现他大部分场景下始终是0向量,所以旋转位置编码没有起到作用