抓取PTT整個看板的圖片,並用文章標題作為資料夾的名稱
- Demo Video - Linux V2 (demo )
- Demo Video - Linux V1 (教學+demo )
- 抓取PTT特定看板全部的圖片
- 使用文章標題作為資料夾的名稱
- 下載圖片速度非常快,1分鐘可抓600張圖片,平均每秒10張
scrapy crawl ptt_img_spider
如需抓其他PTT的看板,需要修改路徑 PttImageSpider/PttImageSpider/spiders/pttspider.py 檔案裡的
start_urls = ["https://www.ptt.cc/bbs/AKB48/index.html"]
將網址修改為其他看板的網址,範例如下
start_urls = ["https://www.ptt.cc/bbs/NounenRena/index.html"]
有些看板的網頁頁數非常多,所以如果要強迫終止,可以按 Ctrl + Z 強制結束程式
- Ubuntu 12.04
- Python 2.7.3
- Scrapy 1.0.4
MIT license