jasiek / szukajwarchiwach

Skrypty do scape-owania serwisu www.szukajwarchiwach.gov.pl

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

szukajwarchiwach

Skrypty do scape-owania serwisu www.szukajwarchiwach.gov.pl

Motywacja

Serwis www.szukajwarchiwach.gov.pl jest kiepski. Nie da się w sensowny sposób wyszukiwać danych (wyszukiwarka tekstowa prawie nie działa), interfejs użytkownika nie jest zaprojektowany pod kątem użytkownika. Postanowiłem, że łatwiej jest mi ściągnąć wszystkie dane które mnie interesują a następnie ręcznie przejrzeć podzbiór który mnie interesuje lokalnie.

Użytkowanie

python get_picture_urls_for_set.py 31337 > sets/31337

Crawluje zespół danych nr 31337 a następnie w pliku sets/31337 zapisuje URL-e wszystkich skanów, w formacie który potem pozwala na ściągnięcie za pośrednictwem wget.

python downloader.py 31337

Tworzy nowy katalog 31337, o ile nie został stworzony, następnie za pomocą 8 wątków ściąga dane - zapisując je w pliku z użyteczną nazwą. Brak obsługi błędów, wyjątki rzucone w wątkach są ignorowane.

Aby sprawdzić czy wszystkie pliki się ściągnęły, oraz czy nie są uszkodzone (są poprawnymi plikami JPEG), należy uruchomić:

python quality_control.py 31337

Gotchas

  • Wygląda na to, że cały serwis jest stateful, tj polega na danych zapisanych w sesji, więc URL-e muszą być crawlowane w określonym porządku.
  • PR-e mile widziane.
  • Ktoś powinien z tego zrobić torrenty, bo czemu nie?

Zespoły scrawlowane:

About

Skrypty do scape-owania serwisu www.szukajwarchiwach.gov.pl

License:MIT License


Languages

Language:Python 100.0%