Spyder2017 / crawlsecurity

爬取安全博客网站的文章。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

crawlsecurity

通过Scrapy爬取网络安全相关的博客网站的文章

  1. 通过BloomFilter进行去重
  2. 使用Elasticsearch进行数据的存储
  3. 使用Kafka形成实时数据流,方便实时处理
  4. 使crontab使程序定时运行

运行环境

  • Centos 7.2
  • Python 2.7
  • Scrapy 1.3.2
  • Elasticsearch 2.4.0
  • Kafka 2.12

About

爬取安全博客网站的文章。


Languages

Language:Python 100.0%