关于list和lists的问题

Question

beagood opened this issue 5 years ago · comments

您好，请问为什么您在把tag或word读取出来存成List之后，还要在换行的地方将list存进lists。
请问为什么不直接将包括换行符在内的所有tag或word存成list，不用Lists？

Zhu Shuai · Answer 1 · Mon Apr 15 2019 11:13:30 GMT+0800 (China Standard Time)

首先，我不是作者，不过想说一下自己的想法。

首先是因为在HMM计算初始状态概率矩阵的时候，需要考虑每个sentence起始位置的标签，如果全部读成一个list，就只有一个sentence，那么对于起始标签来说，只有一种可能。也就是说把整篇文章当做一句话，这样就人为减少了训练集的数量，得到的结果会非常不准确，至少对于初始状态概率矩阵来说。
LSTM的输入时间序列的格式要求就是(sentence, word, emb_size)，这里的sentence也可以理解成batch_size，但是肯定得是多个sentence；如果只封装在一个list中，每个元素都是一个word，这样就只有一个sentence了。

以上是两点个人想法，如果错误还请指教！