Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
meltyyyyy opened this issue 2 years ago · comments
TFIDF/CountVectorizerによって生成した特徴量について、ベクトルの長さとスコアの相関を調べた。 どちらも3700くらいの長さでストップするみたい。おそらく分類に意味のある単語数(development, team, manegement)が3700/6500くらいで、それ以外は冠(a, the, of)とかなのだと思う。
読んだらクローズしておいて〜。
CountVectorizer
TFIDF Vectorizer
というか線形回帰だけでスコア0.68はいくんやな笑