chenglansky's repositories

ChineseTextClassifier

实现中文文本分类,支持文件、文本分类,基于多项式分布的朴素贝叶斯分类器。由于工作实际应用是二分类,加之考虑到每个分类属性都建立map存储词语向量可能引起的内存问题,所以目前只支持二分类。当然,直接复用这个结构扩展到多分类也是很容易。之所以自己写,主要原因是没有仔细研读mahout、weka等代码,不能灵活地进行中文分词、停用词过滤、词频统计、TF-IDF等,也就是向量化和特征提取没有自己手写相对灵活。

Language:JavaStargazers:1Issues:0Issues:0

cs231n-assignment-solution

This is the cs231n assignment solution

Language:Jupyter NotebookStargazers:0Issues:0Issues:0

CTR-Prediction

Sharing the CTR Prediction original paper and personal study notes

Language:PythonStargazers:0Issues:0Issues:0

kaggle-101-Titanic

Kaggle 平台上练习——灾难幸存者分类。基于多种分类方法的组合分类系统,同时额外增加了新的特征。

Language:PythonLicense:GPL-3.0Stargazers:0Issues:0Issues:0
Stargazers:0Issues:0Issues:0

ml_assignment2

机器学习第二次作业:多分类的AdaBoost.MH AdaBoost.MR

Language:PythonStargazers:0Issues:0Issues:0

multi-class-text-classification-cnn

Classify Kaggle Consumer Finance Complaints into 11 classes. Build the model with CNN (Convolutional Neural Network) and Word Embeddings on Tensorflow.

Language:PythonLicense:Apache-2.0Stargazers:0Issues:0Issues:0

Simhash4J

Simhash Java单机实现

Language:JavaStargazers:0Issues:0Issues:0

Student-Grants

DataCastle 大学生助学金精准资助预测(样本不均衡条件下的多分类任务)第7/352名解决方案

Language:Jupyter NotebookStargazers:0Issues:0Issues:0