qiuxiaoxue / Myspider

spider set

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

抓取春雨医生经典问答十四个科室的医患对话数据

环境:BeautifulSoup 、requests、pandas、csv
数据爬虫结构:spidermain.py util.py
 
 
1.抓取数据格式:
按照科室循环,每个科室各300对话,每个对话数据按列存储。
 
 
2.数据处理后格式:dataProc.py
除去数据中的无关文字字符并将数据存储为一纵列方便后面的情感标签判断。
 

2.情感分析:na?ve bayes
依赖库 numpy 、 jieba

给数据打标签chatdata_lable()
 
 
 
3.数据量10M , 21000行,简单的合并医患问答对话

最后打好标签的对话数据。
 

About

spider set


Languages

Language:Python 100.0%