szukajwarchiwach

Skrypty do scape-owania serwisu www.szukajwarchiwach.gov.pl

Motywacja

Serwis www.szukajwarchiwach.gov.pl jest kiepski. Nie da się w sensowny sposób wyszukiwać danych (wyszukiwarka tekstowa prawie nie działa), interfejs użytkownika nie jest zaprojektowany pod kątem użytkownika. Postanowiłem, że łatwiej jest mi ściągnąć wszystkie dane które mnie interesują a następnie ręcznie przejrzeć podzbiór który mnie interesuje lokalnie.

Użytkowanie

python get_picture_urls_for_set.py 31337 > sets/31337

Crawluje zespół danych nr 31337 a następnie w pliku sets/31337 zapisuje URL-e wszystkich skanów, w formacie który potem pozwala na ściągnięcie za pośrednictwem wget.

python downloader.py 31337

Tworzy nowy katalog 31337, o ile nie został stworzony, następnie za pomocą 8 wątków ściąga dane - zapisując je w pliku z użyteczną nazwą. Brak obsługi błędów, wyjątki rzucone w wątkach są ignorowane.

Aby sprawdzić czy wszystkie pliki się ściągnęły, oraz czy nie są uszkodzone (są poprawnymi plikami JPEG), należy uruchomić:

python quality_control.py 31337

Gotchas

Wygląda na to, że cały serwis jest stateful, tj polega na danych zapisanych w sesji, więc URL-e muszą być crawlowane w określonym porządku.
PR-e mile widziane.
Ktoś powinien z tego zrobić torrenty, bo czemu nie?

Zespoły scrawlowane:

Urząd Zdrowia w Krakowie - 40GB lista plików
Spis ludności miasta Krakowa z r. 1870 - 15GB lista plików
Spis ludności miasta Krakowa z r. 1880 - 36G lista plików
Spis ludności miasta Krakowa z r. 1890 (szczegóły) - 38GB lista plików
Spis ludności miasta Krakowa z r. 1900 - 15GB lista plików
Spis ludności miasta Krakowa z r. 1910 - 22GB lista plików
Akta stanu cywilnego Parafii Rzymskokatolickiej w Białym Kościele - 832MB lista plików
Akta stanu cywilnego Parafii Rzymskokatolickiej w Giebułtowie - 2.7GB lista plików
Akta stanu cywilnego Parafii Rzymskokatolickiej w Modlnicy Wielkiej - 6.1GB lista plików
Akta Komisji Porządkowej Cywilno-Wojskowej Województwa Krakowskiego - 15GB lista plików
Księgi Ziemskie Krakowskie - 300GB (!) lista plików
Archiwum Miasta Kleparza - 42GB lista plików
Akta stanu cywilnego Parafii Rzymskokatolickiej w Bolechowicach - 6.8GB lista plików

jasiek / szukajwarchiwach

szukajwarchiwach

Motywacja

Użytkowanie

Gotchas

Zespoły scrawlowane:

About

Languages