gracegreat1 / baike_spider

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

baike_spider

目标

爬取百度百科 1000 个页面的数据,根页面为 python 词条。

结构

  • spider_main.py - 爬虫主体
  • url_manager.py - URL 管理器
  • html_downloader.py - 网页下载器
  • html_parser.py - 网页解析器,这里使用了 BeautifulSoup
  • html_outputer.py - 输出为网页格式

版本

Python 3.6.0

About


Languages

Language:Python 100.0%