crawlsecurity 通过Scrapy爬取网络安全相关的博客网站的文章 通过BloomFilter进行去重 使用Elasticsearch进行数据的存储 使用Kafka形成实时数据流,方便实时处理 使crontab使程序定时运行 运行环境 Centos 7.2 Python 2.7 Scrapy 1.3.2 Elasticsearch 2.4.0 Kafka 2.12