- 爬虫爬取数据 wechat 与 weibo (文字和图片)
- 自然语言处理
- 词云
- 情感分析与观点挖掘(情感词典、knn、Bayes、最大熵、SVM的情感极性分析)
- word2vec训练词向量
- 文本分类与聚类
- tensorflow整合(RNN,GNN,LSTM)
- 图片信息提取
- 筛选出人物照片
- 人脸识别
- 图片分类,聚类
- 统计使用人脸做头像的人群
- 分别统计不同类别头像
- 神经网络训练及预测
爬虫相关 WeChat :groupsend.py 实现用户的所有好友信息的获取 基于itchat Python 接口实现 Wechat 实现将个人号转换为机器人 Weibo:weiboDownloader 实现微博信息的抓取
词云 weibo/jieba 结巴中文分词器 Statics 静态文件 中文字体文件 Test_img 测试两组数据 wordcloud 词云的具体实现 participle 中文分词 word_cloud 执行词语 实现
情感分析 添加spacy 自然语言处理框架,将词语迁移到spacy (给spacy/lang/zh/__init__添加中文停用词接口,测试通过 spa 中文情感分析,未测试
数据可视化 预处理 将爬虫迁移至与django 同环境Python 3 使用django bootstrap echarts 搭建 站点实现数据可视化,测试导入weibo 以及管理界面调整
已经可以拿到微博的图片数据,可以分类,人脸识别啥的 哈哈哈 想的挺好的 做好就一个大型的实用性项目 hhhhhh
有兴趣可以看看 感觉架子有点大。但是算是挺全的,方便以后不断加东西进去。现在主要是想完善weibo 的爬虫架构,自然语言处理下的功能,和站点数据可视化。空的时候感可一起写写,可以边学边写。还是挺好的 如果感兴趣可以去看看spacy 和jieba
python weiboDownloader.py
可以进行微博特定用户的抓取
python word_cloud.py
对抓取到的用户数据,获得词语,具体词语的特点和参数调整可一参照word_cloud 内的说明
venv .env
source .env/bin/activate
export PYTHONPATH=`pwd`
pip install -r requirements.txt
python setup.py build_ext --inplace
需要先了解下Django 和 Bootstrap 相关知识
-
Django 后台框架
-
Bootstrap twitter 前端开源框架
-
sentiment analysis 中文情感分析
-
spacy 号称什么工业级别的自然语言处理工具
-
自然语言处理学习初级
课程 | 机构 | 参考书 | Notes等其他资料 |
---|---|---|---|
自然语言处理初级1 | Stanford | Speech and Language Processing | 链接 |
自然语言处理初级2 | Columbia | 暂无 | 链接 |
- RBF神经网络
- RPROP弹性反向传播1
- RPROP弹性反向传播2
- RPROP弹性反向传播3
- cascade correlation级联算法Fahlman1
- cascade correlation级联算法Fahlman2
- The Dynamic Decay Adjustment Algorithm
- RBF-DDA
- SNNs
- MM马尔可夫模型: 序列的算法
- 你的外在行为只是你内在意愿的表现 HMM隐马尔可夫模型
- HMM 一般来说如果当前行为只受上一个的影响,我们称之为一阶马尔可夫链;
- Introduction RL监督学习, 是已经有了数据和数据对应的正确标签, RL通过一次次在环境中的尝试, 获取这些数据和标签, 然后再学习通过哪些数据能够对应哪些标签, 通过学习到的这些规律, 竟可能地选择带来高分的行为.
- RL 强化学习
- 算法 行为的价值来选取特定行为的方法 使用表格学习的Q learning, sarsa, 使用神经网络学习的Deep Q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习.
- K-means-Clustering
- Fuzzy-k-means-Clustering
- Hierarchische Ballungsanalyse Sub-ballungen und Sub-sub-ballungen
- Agglomerative Hierarchical Clustering AHC-Distanz: Nearest Neighbor Farthest Neighbor
- COBWEB: Lernen durch inkrementelles Aufbauen und Anpassen eines Strukturbaums
- Lernmaschine
- Überwachtes Lernen
- Fehlermaßfuntion
- Empirischer Fehler
- Fehlerminimierung Fehlerminimierung als Gradientenabstieg
- Overfitting
- Modellwahl
- Boosting für Klassifikation AdaBoost
- Kaskadierung Viola
- PAC: Probably Approximate Correct Lernbarkeit
- Vapnik-Chervonenkis(VC) Dimension
- Abschäthung des Testfehlers
- ID3 Top down Aufbau von EB
- Overfitting
- C4.5
- ID5R
- Random Forests