mathiasbynens / 2020-rki-impf-archive

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

RKI-Corona-Impf-Daten-Archiv

Worum geht es?

Das RKI veröffentlicht täglich die gemeldeten Impfungen als Excel-Tabelle.

Leider wird diese Excel-Tabelle täglich überschrieben, so dass keine historischen Verläufe möglich sind.

Deshalb sammeln wir die alte Datei-Versionen und stellen sie in diesem GitHub-Repo zur Verfügung. Per cronjob versuchen wir das Archiv täglich aktuell zu halten. Als Feature bereinigen wir sogar die Daten und bieten sie als CSV an.

Aufbau

Verzeichnis /data/

  • Die rohen Excel-Dateien befinden sich unter data/0_original.
  • Die gesäuberte Daten landen als JSON unter data/1_parsed.
  • Daraus werden CSV-Dateien generiert unter data/2_csv. Dabei gibt es drei CSV-Typen:
    • all.csv enthält alle Daten. Gut zu Pivotieren.
    • region_* sind Slices nach Region, also Bundesländer/Deutschland.
    • metric_* sind Slices nach den Metriken.

Per Cronjob werden die Daten stündlich beim RKI angefragt. Wenn sie beim RKI aktualisiert wurden (also sich der Hash der Exceldatei verändert), wird die neue Datei runtergeladen nach 0_original, gesäubert nach 1_parsed und die CSV-Dateien aktualisiert in 2_csv.

Datenbeschreibung

Diese Daten sind natürlich keine offizielle Veröffentlichung des RKI oder der ARD, sondern eine freundliche Unterstützung für Forschung und Recherche. Auch können wir keine Gewähr für Richtigkeit und Vollständigkeit der Daten geben. Offizielle Daten gibt es nur beim RKI!

Die Beschreibung der Datenfelder, sowie weitere Hinweise können den Exceldateien entnommen werden, so wie der Webseite des RKI.

Verzeichnis /bin/

  • bin/1_download.js ist ein einfacher Downloader
  • bin/2_deduplicate.js löscht doppelte Dateien, also wenn es keine Änderungen an den Daten gab.
  • bin/3_parse.js parsed die Exceldateien und macht daraus saubere und einheitliche JSONs.
  • bin/4_generate_csv.js fügt alle JSONs zusammen und generiert CSV-Dateien.
  • bin/cronjob.sh ist das stündliche cronjob-Script.

FAQ

Wo finde ich weiter Zahlen?

Das offizielle Impfdashboard des RKIs und des BMG bietet einen Datendownload an. Diese Zahlen sind im Zweifelsfall genauer, da sie auch Nachmeldungen enthalten, also Impfungen, die dem RKI erst mehrere Tage später gemeldet werden. Leider liegen die Zahlen nur für ganz Deutschland vor und sind nicht nach Bundesländern aufgeschlüsselt.

Wie oft werden die Daten aktualisiert?

Auf unserer Seite überprüfen wir die Dateien stündlich auf Veränderungen. Laut Aussage des RKIs werden die Daten werktäglich aktualisiert. Somit kann es sein, dass an Sonnabenden oder Sonntagen keine Aktualisierung stattfindet.

Was bedeuten die Datumsangaben?

Momentan unterscheiden wir zwei Datumsangaben:

  • date ist das Datum des Tages, auf den sich die Impfzahlen beziehen.
  • pubDate bzw. publication date sind Datum und Uhrzeit der Veröffentlichung des RKI.

Zwischen diesen beiden Angaben können bis zu 17 Stunden liegen.

Was mache ich, wenn ich Probleme bei den hier veröffentlichten Daten gefunden habe?

Wir versuchen so neutral wie möglich die RKI-Zahlen aus den Excel-Tabellen in JSON und CSV zu übersetzen.

Falls der Scraper mit Veränderungen an den Excel-Tabellen nicht zurecht kommen sollte, bekommen wir automatisch eine Notification und versuchen, das Problem so schnell wie möglich zu lösen.

Probleme und Feature-Wünsche können als neues GitHub Issue eingetragen werden.

In Ausnahmefällen kann der Autor dieses Projektes auch per Mail erreicht werden.

Weitere Links

Andere Projekte, die die RKI-Corona-Impf-Daten sammeln:

About


Languages

Language:JavaScript 98.3%Language:Shell 1.7%