使用说明

usage: main.py [-h] [-A] [-U] [-c] [-d] [-s]

CNVD_XML: Crawl and Store CNVD_XML Data Rapidly

options:
  -h, --help         show this help message and exit
  -A, --all          Crawl all CNVD_XML data and be stored in a database (default_mode = `Skip`)
  -U, --update       Update the XML file and update the database (default_mode = `Stop`)        
  -c, --crawl        Crawl all XML data only (default_save_path:./xml_store/ )
  -d, --to_database  Store all current XML files in the database
  -s, --skip_mode    We will skip when an error occurs If you set. In default, We will stop when an error occurs

Author:
    sayol  <github@sayol.com>
Version:
    1.0
Config:
    >>> Please edit base.py file when u first use <<<

注意事项

cnvd共享数据需登录后访问，需要配置cookie等参数，在base.py中修改。数据库配置在database.py中修改，推荐以cnvd编号作为主键。
最好每次工作后需要更改'__jsl_clearance_s'的值，保证可行性
设置起始爬取页数即可，每次工作后，最好清空xml_store文件夹，保证不会对后续数据处理产生影响
全量爬取时默认为跳过模式。由于官方数据中仍然有少量重复，跳过模式会在产生错误时自动跳过错误数据。
更新爬取时默认为停止模式。当检测到错误时，就停止更新
仅爬取选项会爬取CNVD当前所有的XML数据，是覆盖的写入方式。
仅存储至数据库选项会将当前'./xml_store/'目录下的xml文件写入数据库，可以脱网运行，推荐在隔绝外网的环境中使用
skip_mode选项，可以控制当前是否以跳过模式工作。只能配合to_database选项在隔绝外网的环境中。处理大量xml文件时，开启跳过模式，可以规避数据丢失；少量xml文件更新时就可以使用停止模式更新需要内容。

未来更新

通过账户密码自动获取cookie

About

快速爬取 CNVD_XML 文件并存储至数据库中，具有全爬取和实时更新功能

https://www.cnvd.org.cn/shareData/list

Languages

Language:Python 100.0%