slight-star

代码主要包括：1。特征提取首先对文本信息进行分词处理，采用基于字符串匹配的方法：假如一段叫：李二狗就是一个** 基于匹配的方法就是依次截取一到多个词，并与字典库进行匹配。如二狗，如果匹配到字典中有这个词，则将其分为一个词；当取到“狗就”，发现字典中没有与之匹配的，则说明这个不是一个词语，进行顺序操作，最优将这段话分为：李二狗就是一个 **。 2. 得到分词后的文本之后，就是转换成数字编码，因此电脑没办法识别汉字。这一部分叫特征表示，即用数字的方式表示中文文本，采用的方法是基于词带模型的特征表示：词带就是字典--程序中那个dictionary.mat。我们将分词处理之后的文本中的每一个词语，分别与字典中的词进行匹配，只要出现过就为1，否则为0。如字典中的词含有：李周吴郑王他妈的就是大 ** 一个三炮也是瓜娃子，一共13词（当然正常的词典都是上万个词），将1中得到的词语与之匹配，则李二狗就是一个**对应的数字编码就应该是 1 0 0 0 0 0 1 0 1 1 0 0 0 3，通过2我们将文本表示成了数字，但是这样的表示通常都是稀疏的（因为一般字典都含有上万个词，所以得到的数字表示大部分都是0），为此我们利用降维方法，消除掉这些冗余特征。这里我们采用的PCA（主成分分析）进行降维，并降至15维。 4. 文本分类，采用的就是bp网络代码修改的地方不多，主要就是超参数的选择，（1）如pca的降维数，维数过高，包含冗余数据，过低又会删除掉重要信息。（2）bp网络结构的调整，如隐含层节点数，学习率，等

000

Waking-Up

计算机基础（计算机网络/操作系统/数据库/Git...）面试问题全面总结，包含详细的follow-up question以及答案；全部采用【问题+追问+答案】的形式，即拿即用，直击面试；可用于模拟面试、面试前复习、短期内快速备战面试...

GPL-3.0000

slight-star

Max's repositories

Coursera-ML-AndrewNg-Notes

team-learning-data-mining

algorithm

awesome-chatgpt-prompts-zh

baseGrammer

Bigdata-Movie

CODE

codeshellme.github.io

Data-Science-Notes

Deep-Learning-Coursera

demo

Film-Data-Analysis-and-visualization

JavaFamily

kg_movie

learn-nlp-with-transformers

LeetCode-Py

live2d-widget

mall4cloud

ML-notes

movie_kg

mtime_spider-data_visualization

my_note

QASystemOnMedicalKG

re01

Recommended-system

slight-star.github.io

spider-BaiduIndex

team-learning-program

texture-classification-based-on-BPNN-and-dictionary

Waking-Up