wangjiaxin24 / daguan_NLP

“达观杯”NLP算法挑战赛 竞赛成绩:排名前1%(29/2885)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

daguan_NLP

2018.07 - 2018.09 “达观杯”NLP算法挑战赛 竞赛成绩:排名前1%(29/2885)

赛事描述:由**最大的数据科学竞赛平台DataCastle承办,致力于结合NLP、机器学习和深度学习等技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现长文本的精确分类。

特征工程:采用TF-IDF、Hash、Doc2vec等方式提取文本特征,采用lsa降维、特征拼接以及利用LR和SVM挑选特征等方式构建新的特征。

构建模型:使用机器学习模型与深度学习模型进行训练,并采用启发式算法和网格搜索等方式进行调参,优化模型。

模型融合:在尝试了多种模型融合方法后,最终采用了便捷有效的概率等权重和分类投票的模型融合方式,进一步提升模型预测效果。

来自队友的竞赛小总结: https://www.jianshu.com/p/7d7257249731

TF-IDF:https://blog.csdn.net/the_lastest/article/details/79093407

Doc2vec:https://blog.csdn.net/Walker_Hao/article/details/78995591

LSA: https://blog.csdn.net/mmc2015/article/details/46867773

About

“达观杯”NLP算法挑战赛 竞赛成绩:排名前1%(29/2885)


Languages

Language:Python 100.0%