tensorflowWechat

爬虫爬取数据 wechat 与 weibo （文字和图片）
自然语言处理
1. 词云
2. 情感分析与观点挖掘（情感词典、knn、Bayes、最大熵、SVM的情感极性分析）
3. word2vec训练词向量
4. 文本分类与聚类
5. tensorflow整合（RNN,GNN,LSTM）
图片信息提取
1. 筛选出人物照片
2. 人脸识别
3. 图片分类，聚类
4. 统计使用人脸做头像的人群
5. 分别统计不同类别头像
神经网络训练及预测

Master 分支：

爬虫相关 WeChat ：groupsend.py 实现用户的所有好友信息的获取基于itchat Python 接口实现 Wechat 实现将个人号转换为机器人 Weibo：weiboDownloader 实现微博信息的抓取

word_cloud分支

词云 weibo/jieba 结巴中文分词器 Statics 静态文件中文字体文件 Test_img 测试两组数据 wordcloud 词云的具体实现 participle 中文分词 word_cloud 执行词语实现

sentiment_analysis 分支

情感分析添加spacy 自然语言处理框架，将词语迁移到spacy （给spacy/lang/zh/__init__添加中文停用词接口，测试通过 spa 中文情感分析，未测试

Website 分支

数据可视化预处理将爬虫迁移至与django 同环境Python 3 使用django bootstrap echarts 搭建站点实现数据可视化，测试导入weibo 以及管理界面调整

可加一个图像处理的分支

已经可以拿到微博的图片数据，可以分类，人脸识别啥的哈哈哈想的挺好的做好就一个大型的实用性项目 hhhhhh

有兴趣可以看看感觉架子有点大。但是算是挺全的，方便以后不断加东西进去。现在主要是想完善weibo 的爬虫架构，自然语言处理下的功能，和站点数据可视化。空的时候感可一起写写，可以边学边写。还是挺好的如果感兴趣可以去看看spacy 和jieba

方法

爬虫

python weiboDownloader.py 可以进行微博特定用户的抓取

词云

python word_cloud.py 对抓取到的用户数据，获得词语，具体词语的特点和参数调整可一参照word_cloud 内的说明

情感分析

venv .env
source .env/bin/activate
export PYTHONPATH=`pwd`
pip install -r requirements.txt
python setup.py build_ext --inplace

Website

需要先了解下Django 和 Bootstrap 相关知识

Django 后台框架
Bootstrap twitter 前端开源框架
jieba 中文分词器
word cloud 词云
sentiment analysis 中文情感分析
spacy 号称什么工业级别的自然语言处理工具
自然语言处理主要概念
自然语言处理
词向量word vector
RNN 与 LSTM
自然语言处理学习初级

自然语言处理学习初级

下面这些课程可以较好的帮助大家认识自然语言处理，了解基本的自然语言处理知识，是很好的入门课程。

课程	机构	参考书	Notes等其他资料
自然语言处理初级1	Stanford	Speech and Language Processing	链接
自然语言处理初级2	Columbia	暂无	链接

NN

HMM

MM马尔可夫模型: 序列的算法
你的外在行为只是你内在意愿的表现 HMM隐马尔可夫模型
HMM 一般来说如果当前行为只受上一个的影响，我们称之为一阶马尔可夫链;

IL

Version Space and Bias

RL

Introduction RL监督学习, 是已经有了数据和数据对应的正确标签, RL通过一次次在环境中的尝试, 获取这些数据和标签, 然后再学习通过哪些数据能够对应哪些标签, 通过学习到的这些规律, 竟可能地选择带来高分的行为.
RL 强化学习
算法行为的价值来选取特定行为的方法使用表格学习的Q learning, sarsa, 使用神经网络学习的Deep Q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习.

Unüberwachtes Lernen

K-means-Clustering
Fuzzy-k-means-Clustering
Hierarchische Ballungsanalyse Sub-ballungen und Sub-sub-ballungen
Agglomerative Hierarchical Clustering AHC-Distanz: Nearest Neighbor Farthest Neighbor
COBWEB: Lernen durch inkrementelles Aufbauen und Anpassen eines Strukturbaums

Lerntheorie Algorithmenunabhängige Verfahren (für überwachtes induktives Lernen)

Lernmaschine
Überwachtes Lernen
Fehlermaßfuntion
Empirischer Fehler
Fehlerminimierung Fehlerminimierung als Gradientenabstieg
Overfitting
Modellwahl
Boosting für Klassifikation AdaBoost
Kaskadierung Viola
PAC: Probably Approximate Correct Lernbarkeit
Vapnik-Chervonenkis(VC) Dimension
Abschäthung des Testfehlers

Entscheidungsbäume

ID3 Top down Aufbau von EB
Overfitting
C4.5
ID5R
Random Forests

YueNing / tensorflowWechat