xhjcxxl / ccf2020_classification

ccf2020练习,错过了,不过练手可以

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

分析

练手的,里面可能有些错误,但是忘记去修改了

从无标签的数据集中,直接根据类别名字来分类,分类结果如下

教育     3998
游戏     2659
科技     1659
时尚     1627
家居     1451
体育     1010
娱乐      554
房产      395
财经      260
时政       11

一共10类,有7类有标签,3类没有数据,分别是:游戏,娱乐,体育,显然,这里 这三类分别有:

游戏     2659
娱乐      554
体育     1010

而其他7类,每类1000条,所以娱乐样本相对来说少了很多,游戏多了很多,属于样本不太均衡,那么就需要调整

1.采样来进行平衡
2.loss加权重进行平衡

首先使用的是loss加权重进行平衡,得到训练之后的模型,再对无标签的数据进行分类,分类出结果,如下:

游戏    5149
娱乐    4111
体育    3915
时政    3696
时尚    3075
财经    2907
家居    2894
房产    2716
科技    2534
教育    2003

然后对标记了的无标签数据进行采样,得到标签个数相近的新的10类标签数据,然后用新的模型来进行训练

娱乐    3075
体育    3075
游戏    3075
时政    3003
时尚    3003
科技    3003
房产    3003
教育    3003
家居    3003
财经    3003

About

ccf2020练习,错过了,不过练手可以


Languages

Language:Python 97.8%Language:Jupyter Notebook 2.2%