Das RKI veröffentlicht täglich die gemeldeten Impfungen als Excel-Tabelle.
Leider wird diese Excel-Tabelle täglich überschrieben, so dass keine historischen Verläufe möglich sind.
Deshalb sammeln wir die alte Datei-Versionen und stellen sie in diesem GitHub-Repo zur Verfügung. Per cronjob versuchen wir das Archiv täglich aktuell zu halten. Als Feature bereinigen wir sogar die Daten und bieten sie als CSV an.
- Die rohen Excel-Dateien befinden sich unter
data/0_original
. - Die gesäuberte Daten landen als JSON unter
data/1_parsed
. - Daraus werden CSV-Dateien generiert unter
data/2_csv
. Dabei gibt es drei CSV-Typen:all.csv
enthält alle Daten. Gut zu Pivotieren.region_*
sind Slices nach Region, also Bundesländer/Deutschland.metric_*
sind Slices nach den Metriken.
Per Cronjob werden die Daten stündlich beim RKI angefragt. Wenn sie beim RKI aktualisiert wurden (also sich der Hash der Exceldatei verändert), wird die neue Datei runtergeladen nach 0_original
, gesäubert nach 1_parsed
und die CSV-Dateien aktualisiert in 2_csv
.
Diese Daten sind natürlich keine offizielle Veröffentlichung des RKI oder der ARD, sondern eine freundliche Unterstützung für Forschung und Recherche. Auch können wir keine Gewähr für Richtigkeit und Vollständigkeit der Daten geben. Offizielle Daten gibt es nur beim RKI!
Die Beschreibung der Datenfelder, sowie weitere Hinweise können den Exceldateien entnommen werden, so wie der Webseite des RKI.
bin/1_download.js
ist ein einfacher Downloaderbin/2_deduplicate.js
löscht doppelte Dateien, also wenn es keine Änderungen an den Daten gab.bin/3_parse.js
parsed die Exceldateien und macht daraus saubere und einheitliche JSONs.bin/4_generate_csv.js
fügt alle JSONs zusammen und generiert CSV-Dateien.bin/cronjob.sh
ist das stündliche cronjob-Script.
Das offizielle Impfdashboard des RKIs und des BMG bietet einen Datendownload an. Diese Zahlen sind im Zweifelsfall genauer, da sie auch Nachmeldungen enthalten, also Impfungen, die dem RKI erst mehrere Tage später gemeldet werden. Leider liegen die Zahlen nur für ganz Deutschland vor und sind nicht nach Bundesländern aufgeschlüsselt.
Auf unserer Seite überprüfen wir die Dateien stündlich auf Veränderungen. Laut Aussage des RKIs werden die Daten werktäglich aktualisiert. Somit kann es sein, dass an Sonnabenden oder Sonntagen keine Aktualisierung stattfindet.
Momentan unterscheiden wir zwei Datumsangaben:
date
ist das Datum des Tages, auf den sich die Impfzahlen beziehen.pubDate
bzw.publication date
sind Datum und Uhrzeit der Veröffentlichung des RKI.
Zwischen diesen beiden Angaben können bis zu 17 Stunden liegen.
Wir versuchen so neutral wie möglich die RKI-Zahlen aus den Excel-Tabellen in JSON und CSV zu übersetzen.
Falls der Scraper mit Veränderungen an den Excel-Tabellen nicht zurecht kommen sollte, bekommen wir automatisch eine Notification und versuchen, das Problem so schnell wie möglich zu lösen.
Probleme und Feature-Wünsche können als neues GitHub Issue eingetragen werden.
In Ausnahmefällen kann der Autor dieses Projektes auch per Mail erreicht werden.
Andere Projekte, die die RKI-Corona-Impf-Daten sammeln: