spider

python3 各种爬虫技术

@双愚 , 若fork或star请注明来源

功能	包名	作用
数据获取	request	爬取网页
数据解析	re	正则表达式
	BeautifulSoup
	xpath	xpath语法来进行文件格式解析
	lxml	lxml库结合libxml2快速强大的特性，使用xpath语法来进行文件格式解析，与Beautiful相比，效率更高。
模拟浏览器	Selenium	用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器。模拟点击
	PhantomJS	无界面浏览器
	pandas
	jieba	使用结巴分词进行中文分词
	pandas
	wordcloud	词云包
	matplotlib	绘制图表
	random

读取保存excel，txt等文件

本项目全部内容遵守 MIT 许可协议.

About

爬虫python3 (request,BeautifulSoup,xpath,re,Selenium,wordcloud等模块)

MIT License

Language:HTML 67.3%Language:Python 23.4%Language:JavaScript 4.7%Language:Jupyter Notebook 4.6%Language:Batchfile 0.0%