meltyyyyy / signate-sc2022

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

【共有】TFIDF/CountVectorizerのベクトルの長さの閾値について

meltyyyyy opened this issue · comments

まとめ

TFIDF/CountVectorizerによって生成した特徴量について、ベクトルの長さとスコアの相関を調べた。
どちらも3700くらいの長さでストップするみたい。おそらく分類に意味のある単語数(development, team, manegement)が3700/6500くらいで、それ以外は冠(a, the, of)とかなのだと思う。

読んだらクローズしておいて〜。

CountVectorizer
スクリーンショット 2022-08-11 12 12 29

TFIDF Vectorizer
スクリーンショット 2022-08-11 12 13 03

というか線形回帰だけでスコア0.68はいくんやな笑