爬取专业内容知识,供数据集构造使用
由于初版仅使用了requests+bs4的简单抓取方式,不适合大规模爬取。现改为scrapy实现。
CNKI由于版权限制,开放部分仅为摘要和作者信息,全文HTML需要高校购买服务。
本项目仅为研究使用,若有侵权,请联系。
- JSJY: 计算机应用
- JSGG: 计算机工程与应用
- WJFZ: 计算机技术与发展
- JSJA: 计算机科学
- KXTS: 计算机科学与探索
- SJSJ: 计算机工程与设计
- RJXB: 软件学报
- JFYZ: 计算机研究与发展
- JSJF: 计算机辅助设计与图形学学报
- JSJX: 计算机学报
- XXWX: 小型微型计算机系统
- JSJK: 计算机工程与科学
爬虫部署于 Herokuapp, 使用scrapydweb项目框架,特此感谢。