- 环境准备
- python=3.9.19
- requests
- beautifulsoup4
- ddddocr
- selenium
- webdriver-manager
- 创建和激活环境
pyenv install 3.9.19
pyenv local 3.9.19
python -m venv "$(basename "$(pwd)")_env"
source "$(basename "$(pwd)")_env/bin/activate"
- 退出和删除环境
source deactivate
rm -rf "$(basename "$(pwd)")_env"
- 安装依赖
requests
、beautifulsoup4
、selenium
、webdriver-manager
pip install requests beautifulsoup4 selenium webdriver-manager
pip freeze > requirements.txt
pip install -r requirements.txt
- 安装 ddddocr,
python <= 3.9
pip install ddddocr
import ddddocr
ocr = ddddocr.DdddOcr(show_ad=False,det=False,ocr=True)
with open("Captcha.jpeg", 'rb') as f:
image = f.read()
res = ocr.classification(image)
print(res)
- 运行 fetch_geojson_urls.py 文件,该文件会爬取各省市区的地理数据下载链接,并保存到 province_city_district_urls.json 文件中。
- 请确保您的爬取行为符合网站的使用条款,并且不违反任何法律法规。
- 注意处理异常情况,并且尊重网站的服务器负载。
- 在使用爬虫下载大量数据时,可能需要考虑限速和重试机制,以防止对网站服务器造成过大负载。
本项目采用 MIT 许可证。