- 推广网站的关键词收录
- 现有关键词收录 爬虫+人工
- AI关键词扩展
- 搜索引擎 词条,尾部词条seo
- 网站链接爬虫
- 内容爬取
- 鉴定
- 归类鉴定、挖掘
- 按关键词列表,批量使用百度进行搜索
- 将搜索结果的网站名称、网址保存成 excel 文件
- 采用 playwright 对非法网站进行判定、分类下载数据
- 准备关键词到 /inut/word_list.xlsx 文件中
- 执行 /playwright/src/start.py
├── README.md // 帮助文档
└── playwright // playwright 框架
├── auto.py
├── demo // 调试代码
│ ├── baidu.py
│ ├── main.py
│ ├── main_app.py
│ └── search_results.xls
├── input // 项目输入项
│ ├── web_list.xlsx
│ └── word_list.xlsx
├── src // 代码库
│ └── start.py
├── target // 导出数据
│ ├── search_results_2023-03-29_11:54:14.xls
│ ├── search_results_2023-03-29_16:39:22.xls
│ └── search_results_2023-03-31_09:16:07.xls
└── test_data // 测试数据
├── file.xlsx
└── 副本20230318域名&DNS.pptx
- 执行 /playwright/src/start.py
- 命令行调试
python3 -m playwright codegen --target python -o 'auto.py' -b chromium https://www.ss-gate.org/42933.html ···
- sdf
- sd
1