Bert后加nn.LSTM
weitajinjucha opened this issue · comments
weitajinjucha commented
请问nn.LSTM的batch_first设置成False但实际上没有改变data维度顺序(batch在第一位),对结果会产生怎样的影响?
在这么做的情况下,我把一层lstm层接到了bert的第六层之后输出,在第一个epoch比bert高了近一个点,后来有所降低但稳定比完整的bertbase高,请问您知道这个是什么原因吗?
Geministudents commented
请问把一层lstm层接到了bert的第六层,这个操作是怎么实现的呢。