kkfuwfny/analysis_of_internet_jobs

#####################################################################################
##  You can connect the author via [airlvchuan@sina.com].                         ### 
##  Written  in 2015-4-17.                                                        ###
#####################################################################################


这里要说明每个文件夹的作用和各个文件的功能。
文件夹 bloomFilter 是布隆过滤。他的作用是实现爬虫的时候不会爬到相同的工作。
          bloomFilter.py 是主要实现去重的主要代码。
	  __init__.py    外面程序引用时必要的，里面可以没有功能代码。
	  savedHash.txt  存储的是每个工作产生的 hash 值，程序再次运行的时候
		       会再次读取，一个工作产生7个哈希。
           其他不重要


文件夹 functionTest 是当时测试多线程用的，如果你没看到，那么也没关系。
     

文件夹 Data nlpir userDict 是分词模块的，本来是在同一个文件夹ICTCLAS_Python里面的，为你便于其他程序调用，而拿出来的。不这样的话要改他们里面程序的一些路径，不方便。


文件夹 courses 里面是工作对应的课程。
	courses.txt 是全部课程。
	alias_recovery.txt 是一些课程的别名（简写，别名等）


#######################################################################
文件  mainNlpir.py       是分词程序，他调用了文件夹 Data nlpir userDict的模块。


文件  jobDB.py           是关于mysql数据库的链接操作程序。


文件  spider.py          是爬虫的代码。


文件  workManager.py     是关于实现线程池爬虫的主要模块的代码。


文件  minaThreadPool.py  是把文件 spier.py 和 workManager.py 整合在一起的代码，实现了线程池。


其他没说明的文件可能实测试时候用的或者是某些文件的备份。
kkfuwfny / analysis_of_internet_jobs

About

Languages