YueNing / tensorflowWechat

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

tensorflowWechat

  1. 爬虫爬取数据 wechat 与 weibo (文字和图片)
  2. 自然语言处理
    1. 词云
    2. 情感分析与观点挖掘(情感词典、knn、Bayes、最大熵、SVM的情感极性分析)
    3. word2vec训练词向量
    4. 文本分类与聚类
    5. tensorflow整合(RNN,GNN,LSTM)
  3. 图片信息提取
    1. 筛选出人物照片
    2. 人脸识别
    3. 图片分类,聚类
    4. 统计使用人脸做头像的人群
    5. 分别统计不同类别头像
  4. 神经网络训练及预测

Master 分支:

爬虫相关 WeChat :groupsend.py 实现用户的所有好友信息的获取 基于itchat Python 接口实现 Wechat 实现将个人号转换为机器人 Weibo:weiboDownloader 实现微博信息的抓取

word_cloud分支

词云 weibo/jieba 结巴中文分词器 Statics 静态文件 中文字体文件 Test_img 测试两组数据 wordcloud 词云的具体实现 participle 中文分词 word_cloud 执行词语 实现

sentiment_analysis 分支

情感分析 添加spacy 自然语言处理框架,将词语迁移到spacy (给spacy/lang/zh/__init__添加中文停用词接口,测试通过 spa 中文情感分析,未测试

Website 分支

数据可视化 预处理 将爬虫迁移至与django 同环境Python 3 使用django bootstrap echarts 搭建 站点实现数据可视化,测试导入weibo 以及管理界面调整

可加一个图像处理的分支

已经可以拿到微博的图片数据,可以分类,人脸识别啥的 哈哈哈 想的挺好的 做好就一个大型的实用性项目 hhhhhh

有兴趣可以看看 感觉架子有点大。但是算是挺全的,方便以后不断加东西进去。现在主要是想完善weibo 的爬虫架构,自然语言处理下的功能,和站点数据可视化。空的时候感可一起写写,可以边学边写。还是挺好的 如果感兴趣可以去看看spacy 和jieba

方法

爬虫

python weiboDownloader.py 可以进行微博特定用户的抓取

词云

python word_cloud.py       对抓取到的用户数据,获得词语,具体词语的特点和参数调整可一参照word_cloud 内的说明

情感分析

venv .env
source .env/bin/activate
export PYTHONPATH=`pwd`
pip install -r requirements.txt
python setup.py build_ext --inplace

Website

需要先了解下Django 和 Bootstrap 相关知识

  1. Django 后台框架

  2. Bootstrap  twitter 前端开源框架

  3. jieba 中文分词器

  4. word cloud 词云

  5. sentiment analysis 中文情感分析

  6. spacy 号称什么工业级别的自然语言处理工具

  7. 自然语言处理主要概念

  8. 自然语言处理

  9. 词向量word vector

  10. RNN 与 LSTM

  11. 自然语言处理学习初级

自然语言处理学习初级

下面这些课程可以较好的帮助大家认识自然语言处理,了解基本的自然语言处理知识,是很好的入门课程。
课程 机构 参考书 Notes等其他资料
自然语言处理初级1 Stanford Speech and Language Processing 链接
自然语言处理初级2 Columbia 暂无 链接

NN

  1. RBF神经网络
  2. RPROP弹性反向传播1
  3. RPROP弹性反向传播2
  4. RPROP弹性反向传播3
  5. cascade correlation级联算法Fahlman1
  6. cascade correlation级联算法Fahlman2
  7. The Dynamic Decay Adjustment Algorithm
  8. RBF-DDA
  9. SNNs

HMM

  1. MM马尔可夫模型: 序列的算法
  2. 你的外在行为只是你内在意愿的表现 HMM隐马尔可夫模型
  3. HMM 一般来说如果当前行为只受上一个的影响,我们称之为一阶马尔可夫链;

IL

  1. Version Space and Bias

RL

  1. Introduction RL监督学习, 是已经有了数据和数据对应的正确标签, RL通过一次次在环境中的尝试, 获取这些数据和标签, 然后再学习通过哪些数据能够对应哪些标签, 通过学习到的这些规律, 竟可能地选择带来高分的行为.
  2. RL 强化学习
  3. 算法 行为的价值来选取特定行为的方法 使用表格学习的Q learning, sarsa, 使用神经网络学习的Deep Q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习.

Unüberwachtes Lernen

  1. K-means-Clustering
  2. Fuzzy-k-means-Clustering
  3. Hierarchische Ballungsanalyse Sub-ballungen und Sub-sub-ballungen
  4. Agglomerative Hierarchical Clustering AHC-Distanz: Nearest Neighbor Farthest Neighbor
  5. COBWEB: Lernen durch inkrementelles Aufbauen und Anpassen eines Strukturbaums

Lerntheorie Algorithmenunabhängige Verfahren (für überwachtes induktives Lernen)

  1. Lernmaschine
  2. Überwachtes Lernen
  3. Fehlermaßfuntion
  4. Empirischer Fehler
  5. Fehlerminimierung Fehlerminimierung als Gradientenabstieg
  6. Overfitting
  7. Modellwahl
  8. Boosting für Klassifikation AdaBoost
  9. Kaskadierung Viola
  10. PAC: Probably Approximate Correct Lernbarkeit
  11. Vapnik-Chervonenkis(VC) Dimension
  12. Abschäthung des Testfehlers

Entscheidungsbäume

  1. ID3 Top down Aufbau von EB
  2. Overfitting
  3. C4.5
  4. ID5R
  5. Random Forests

SVM

  1. VC Dimension
  2. 硬间隔SVM
  3. 软间隔SVM

About


Languages

Language:Python 100.0%