kokes / knod

Katalog nejen otevřených dat

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Katalog nejen otevřených dat

Středobod českých otevřených dat je NKOD, národní katalog otevřených dat. Je v něm spousta zajímavých informací, ale pro takový ten letmý přehled o tom, jaká data jsou k dispozici, je celkem obtížně použitelný.

Nechceme tedy NKOD replikovat, jde nám o trochu obecnější přehled, aby si každý mohl dohledat data pro jednotlivé oblasti zájmu.

Katalogy

Národní katalog otevřených dat (NKOD) je katalog všech katalogů, jednotlivé úřady a instituce si ale občas založí vlastní katalog, lokální katalog otevřených dat (LKOD), zde je výpis některých z nich.

Administrativni informace

K transakčním datům (dotace, smlouvy, zakázky, ...) je třeba doplnit data o smluvních stranách, protože tato data jsou v transakčních datasetech zpravidla nedostačující. Neexistuje jedno centrální úložiště, je několik zdrojů těchto informací, záleží na tom, co člověk požaduje.

  • Některé informace o některých fyzických, právnických a veřejných entitách jde získat z exportů datových schránek
    • Orgány veřejné moci mají sice DS povinně, ale u privátních subjektů to tak není, takže v datech nejsou zdaleka všechny.
    • Dobré pro přehled o orgánech veřejné moci, případně jako zdroj pro mapování z adres datových schránek na IČO či naopak.
  • Administrativní registr ekonomických subjektů (ARES)
    • Historicky nejpodstatnější dataset pro administrativní data, do dneška má svou relevanci.
    • V sekci XML služby najdete popis řady endpointů, ideální pro získání informací o několika málo subjektech. Nejdůležitější je OR (obchodní rejstřík - údaje z Justice), RES (registr ekonomických subjektů - základní údaje od Českého statistického úřadu) a RŽP (živnostenský rejstřík).
    • API mají limity v řádek desítek tisíc dotazů denně, tak pozor na to, protože můžete být snadno zablokováni.
    • V sekci otevřená data je relativně nově bulkový export obchodního rejstříku. Obsahuje skoro vše, co by člověk potřeboval o právnických osobách - chybí historie názvů subjektů a data narození fyzických osob (jednatelů, společníků atd.).
    • MFČR tento registr provozuje, ale data jen poskytuje dál, nejsou v jeho vlastnictví.
  • Otevřená data Veřejného rejstříku a Sbírky listin
    • Ministerstvo Spravedlnosti poskytuje export dat z webu Justice.cz, zejm. z rejstříku právnických osob. Cokoliv vidíte na webové verzi rejstříku, to si můžete stáhnout v XML v bulkové formě.
    • Pro aktuální informace stačí stáhnout data pro současný rok a všechny rejstříkové soudy a právní formy. Bohužel nejde stáhnout vše najednou nějak jednodušeji.
    • Informace o zaniklých subjektech je trochu těžší získat, protože firma zaniklá v roce 2009 bude naposledy v datasetu pro rok 2009, takže člověk musí stáhnout data pro všechny roky, aby získal informace o všech zaniklých subjektech. Tato limitace se netýká exportů ARES výše, tam je snadné získat informace o zaniklých subjektech.
    • Oproti ARES člověk získá informace o akcionářích, insolvencích a dalších metadatech.
    • Tento dataset bude v budoucnu jediný nutný pro identifikaci smluvních stran, v tuto chvíli má stále několik zádrhelů.

Dotace

  • DotInfo
    • Ze systému DotInfo existuje jeden export z roku 2017
    • TODO: vysvětlit, proč bohužel tenhle dataset existuje
  • IS ReD
    • obsahuje CSV exporty pro dotace, rozhodnutí nebo příjemce
    • je možné dohledat informace v číselnících
    • doporučuji diagram pro lepší pochopení relačního modelu
    • nástupce systému CEDR III
  • MS2014+ a Seznam operací/příjemců
    • Dva datasety od MMR ohledně evropských dotací, tedy vyšších desítkách miliard ročně.
    • MS2014+ jsou otevřená data přímo z informačního systému pro správu dotací, obsahují strukturovaná data o dotacích pro období 2014-2020.
    • Druhý dataset, Seznam operací, obsahuje data pro období 2007-13 a 2014-20, jde ale o celkem zvláštně strukturované Excely, které se navíc v čase mění. Takže pro nahlížení dobré, ale pro analytiku je lepší export z MS2014+.
  • CzechInvest
    • udělené investiční pobídky
    • starší data neobsahují IČO informace, tak pozor na to
  • Státní zemědělský invervenční fond (SZIF)
    • Fond operuje s 30-40 miliardami ročně, na webu jsou jednotliví žadatelé k dohledání.
    • Existují XML exporty pro poslední dva roky dat.

Smlouvy

  • Registr smluv
    • Jde o přelomový informační systém, kam mají tisíce veřejných subjektů povinnost publikovat skoro všechny smlouvy přesahující hodnotu 50 tisíc Kč (jsou výjimky mj. z důvodů bezpečnosti či obchodních tajemství).
    • Poskytuje otevřená data na denní bázi ve formátu XML.
    • Systém lze používat napřímo, zprácováním dat nebo přes Hlídače státu, nejznámějšího zpracovatele těchto dat, kde jsou krom smluvních dat prolinkovány další datasety pro lepší kontext a analytiku.
  • Ad hoc smluvní data
    • Před účinností Registru smluv publikovaly některé subjekty smluvní informace z vlastního popudu.
    • Výhodou těchto dat je, že smlouvy často predatují vznik Registru smluv - do registru totiž subjekty vkládají jen nové smlouvy (případně staré smlouvy, pokud je nové smlouvy rozšiřují, žádné dávkové vkládání starých smluv se ale nekoná).
    • Příklady exportů

Zakázky

  • vestnik (jak se liší?)
  • profil zadavatele
  • vsechny zakazky?

Faktury

Neexistuje centralizace faktur, je na jednotlivých úřadech či jiných entitách, jestli své faktury zveřejní. Tato data jsou často cennější než smlouvy nebo zakázky, protože obsahují reálné útraty a jejich metadata jsou kvalitnější než např. u registru smluv.

Ostatní výdaje

Rozpočty

  • Monitor Státní pokladny je aplikace pro rozklikávání rozpočtů a dalších účetních informací o spoustě složek státu - měst, obcí, příspěvkových organizací, škol atd.
  • CityVizor - původně projekt z Ministerstva financí se přesunul pod spolek Otevřená města a jde mu o vizualizaci rozpočtů samosprávních jednotek
    • Hlavní rozdíl proti Monitoru je ten, že Monitor má rozpočty na úrovni rozpočtových kapitol (např. odvoz odpadu), ale nemáte tam jednotlivé faktury, průběžné plnění, informace o dodavatelích atd. To je přesně mezera, kterou vyplňuje CityVizor.
    • Praha má vlastní instanci CityVizoru.

Metainfo o státu

TODO: prolinkovat toto nějak s admin informacemi výše? Aby člověk nemusel scrollovat mezi nima, obojí patří pod stejnou podkategorii

  • Orgány veřejné moci
    • Často je třeba identifikovat složky státu, ať už pro kategorizaci dat (jdou finance od soukromníka státu nebo mezi soukromníky atd.) nebo třeba pro adresnou komunikaci. Bohužel neexistuje jeden autoritativní zdroj.
    • Seznam orgánů veřejné moci (OVM) je možné získat z exportu datových schránek
    • Otevřená data Czech POINTu mají též seznam orgánů veřejné moci
    • Registr práv a povinností má webový náhled a JSON export těchto dat
  • Data Poslanecké sněmovny a Senátu
    • Jde o sadu datasetů, kterou na webu nikdy nenajdete, je ale velmi cenná.
    • Jde o denně aktualizované soubory, ve formátu podobné CSV, jejich zpracování je celkem snadné, jen pozor, jsou normalizovaná, takže budete občas joinovat přes několik tabulek.
    • Obsahuje mj.
      • Hlasování ve Sněmovně (od vzniku České republiky)
      • Stenozáznamy
      • Tisky ze Sněmovny i Senátu
      • Plány schůzí
      • Interpelace
  • Volby
    • Český statistický úřad nabízí data z voleb jako otevřená data, má to však několik zádrhelů.
    • Starší data jsou zpravidla v jiném formátu než ta současná (např. FoxPro vs. XML vs. CSV), takže pro delší časové řady musí člověk trochu pracovat.
    • Otevřená data neobsahují informace o historicky všech volbách v České republice, plné pokrytí je až cca od roku 2004. Pro starší informace musí jít člověk na web volby.cz a dohledat údaje tam.
    • Kandidáti ani zvolení zastupitelé nemají žádný unikátní identifikátor, celkem špatně se tedy mapují např. na angažované osoby z ARES nebo Justice, nemáme totiž ani datum narození, jen věk osoby, který není platný k nějakém určitému datu.
  • Centrální registr oznámení je informační systém založen pro účely zákona o střetu zájmů.
    • Obsahuje data o veřejných činitelích (soudci, zastupitelé, poslanci, ...), zejména pak jejich majetkové poměry, účastnictví ve firmách a funkce/členství.
    • Systém nemá datový export nebo veřejné API, k nahližení je ale i tak užitečný.
  • registr prav a povinnosti
  • wikidata?
  • sčítání?

Legislativa

  • psp.cz o tvorbě
  • eklep, veklep
  • bude elegislativa, esbírka
  • zákony pro lidi + ASPI?

Regionální data

  • golemio
  • data.brno.cz

Zdravotnictví

  • ÚZIS (viz hackathon 2019, ale bude toho i víc)
  • SÚKL
  • má něco ministerstvo?

Geodata

  • ČUZK
  • městská
  • katastr
  • IPR prazsky model

Ostatní

About

Katalog nejen otevřených dat

License:Mozilla Public License 2.0