kkfuwfny / analysis_of_internet_jobs

分析互联网岗位数据,对他们的工作能力要求等做关联分析。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

#####################################################################################
##  You can connect the author via [airlvchuan@sina.com].                         ### 
##  Written  in 2015-4-17.                                                        ###
#####################################################################################


这里要说明每个文件夹的作用和各个文件的功能。
文件夹 bloomFilter 是布隆过滤。他的作用是实现爬虫的时候不会爬到相同的工作。
          bloomFilter.py 是主要实现去重的主要代码。
	  __init__.py    外面程序引用时必要的,里面可以没有功能代码。
	  savedHash.txt  存储的是每个工作产生的 hash 值,程序再次运行的时候
		       会再次读取,一个工作产生7个哈希。
           其他不重要


文件夹 functionTest 是当时测试多线程用的,如果你没看到,那么也没关系。
     

文件夹 Data nlpir userDict 是分词模块的,本来是在同一个文件夹ICTCLAS_Python里面的,为你便于其他程序调用,而拿出来的。不这样的话要改他们里面程序的一些路径,不方便。


文件夹 courses 里面是工作对应的课程。
	courses.txt 是全部课程。
	alias_recovery.txt 是一些课程的别名(简写,别名等)


#######################################################################
文件  mainNlpir.py       是分词程序,他调用了文件夹 Data nlpir userDict的模块。


文件  jobDB.py           是关于mysql数据库的链接操作程序。


文件  spider.py          是爬虫的代码。


文件  workManager.py     是关于实现线程池爬虫的主要模块的代码。


文件  minaThreadPool.py  是把文件 spier.py 和 workManager.py 整合在一起的代码,实现了线程池。


其他没说明的文件可能实测试时候用的或者是某些文件的备份。







	

About

分析互联网岗位数据,对他们的工作能力要求等做关联分析。


Languages

Language:Python 100.0%