qhduan / Seq2Seq_Chatbot_QA

使用TensorFlow实现的Sequence to Sequence的聊天机器人模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

语料的使用问题

Lavender2017 opened this issue · comments

为什么训练的时候使用单个字转化成索引输入网络,而不是使用像jieba这种分词工具分过之后的词对应的索引输入网络?

因为作者(我),不喜欢分词

分词本身给句子提供了信息,但是同时也丢失了信息。另外一点就是分词模型让整个模型的总大小扩大了非常多倍,因为中文词可能有5万条,字只有5000多常用字

不过如果你觉得分词更好,模型本身可以是完全一样的