schmokel/PDS

Political Data Science

I 2008 lancerede Google sin service Google Flu Trends, der gjorde Google i stand til at forudsige influenza-udbrud flere uger før nationale sundhedsmyndigheder var i stand til at identificere samme udbrud. Google Flu Trends er et eksempel på, hvordan data science kan bruges til at få værdifulde indsigter fra data, der kan danne baggrund for politisk handling.

Data science er en videnskab såvel som en kunst, hvor formålet er at ekstrahere viden og indsigter fra data. Processen består både i at hente, transformere, visualisere og analysere data – ofte med redskaber, som ikke indgår i den almindelige politologiske værktøjskasse. Formålet med kurset er at klæde de studerende på til selv at give sig i kast med nogle af de metoder og værktøjer, som er nybrud i politologien, fx i forbindelse med et speciale.

Centrale emner i kurset vil være:

Hente data: Skaffe data fra alsidige datakilder såsom med scraping og API’er
Præ-processering: Gøre data tidy og klar til analyse ved transformation af data
Visualisering: Præsentere data på en intuitiv og appetitvækkende facon
Statistisk læring: Klassificere og forudsige om data ved brug af især superviseret maskinlæring, såsom Random Forest og Gradient Boosted Trees

Kurset vil indeholde en blanding af teori og redskaber, og den tekniske del af kurset vil foregå i R.

Teorien vil blandt andet omfatte forskelle mellem kausalestimation og prædiktion, centrale koncepter i maskinlæring samt refleksioner om data science, herunder hvorfor Google har valgt at nedlægge Google Flu Trends. En del af eksemplerne i kurset vil tage udgangspunkt i mit eget speciale, hvor jeg anvendte maskinlæring til at forudsige og målrette tiltag imod uddannelsesfrafald på Professionshøjskolen Metropol.

Redskaberne i kurset vil blandt andet være centrale R-pakker såsom dplyr, ggplot2 og magrittr. I kurset stiftes også bekendtskab med at hente data ved at benytte API’er.

Kurset kan både stå alene og supplere kurset Videregående kvantitative metoder i studiet af politisk adfærd.

Lektionsplan

Nr	Indhold	Litteratur	DataCamp	Supplerende
1	Intro til kurset og R	Leeper (2016), R4DS: kap 1, Healy (2017): kap 1-3	Introduction to R	Imai (2016): kap 1, CS: RStudio IDE, CS: Base R
2	R workshop I: Explore	R4DS: kap 2-6, CS: Transformation	Introduction to the Tidyverse	Zhang (2017), Wickham (2014), Risdal (2016)
3	R workshop II: Import, tidy, transform	R4DS: kap 9-13, CS: Data import	Cleaning Data in R, Data Manipulation in R with dplyr, Joining Data in R with dplyr	R4DS: kap 14-16, Spachtholz (2017)
4	R workshop III: Programmering & Git	R4DS: kap 17-19 + 21, van Strien (2016)	Intermediate R	R4DS: kap 20, CS: Apply
5	Web scraping & API	The Economist (2016), Shiab (2015)	Working with Web Data in R	Munzert et al (2014), Wickham 2014, Stephens-Davidowitz (2014),
6	Tekst som data	Grimmer & Stewart (2013), Wickham (2010), CS: Strings	Sentiment Analysis in R: The Tidy Way	King et al. (2013), Benoit & Nulty (2016), CS: quanteda
7	Visualisering	DVSS: "Before you begin", DVSS: kap 3 + 8, CS: Visualisation	Data Visualization in R	FiveThirtyEight (2016), DVSS: kap 2, Schwabish (2014)
8	GIS & spatiale data	DVSS (2017): kap 7, Woller (forthcoming): TBA, Michalopoulos & Papaioannou (2013)	Working with Geospatial Data in R	Lovelace & Cheshire (2014), Kahle & Wickham (2013), R-bloggers (2017), Barfort (2017), CS: Leaflet
9	Estimation & prædiktion	ISL: kap 1, ISL: kap 2 afs 2.1-2.2, Bach & Svejgaard (2017): kap 1 afs 1.2 + kap 3 afs 3.1-3.2, Varian (2014), Hofman et al. (2017), Kleinberg et al. (2015)	Supervised Learning in R: Classification	Mullainathan & Spiess (2017), Choi & Varian (2009), Breiman et al. (2001)
10	Superviseret læring I	ISL: kap 3 afs 3.1-3.4, ISL: kap 4 afs 4.1-4.3, ISL: kap 5 afs 5.1-5.2, ISL: kap 6 afs 6.2	Supervised Learning in R: Regression	Bach & Svejgaard (2017): kap 4 afs 4.1 + kap 5, Kleinberg et al (2017)
11	Superviseret læring II	ISL: kap 8 afs 8.1-8.2, Montgomery & Olivella (2015), DMLC (2016), CS: Caret	Machine Learning Toolbox	Kuhn (2017), R-bloggers (2015)
12	Usuperviseret læring	ISL: kap 10 afs 10.1-10.3	Unsupervised Learning in R	Flores (2017a), Flores 2017b, Foster et al (2016)
13	Refleksioner om data science	Anderson (2008), Lazer et al (2014), Samii (2016), Athey (2017), Mittelstadt et al (2016)	Exploratory Data Analysis	Grimmer (2015), Bach & Svejgaard (2017): kap 6 afs 6.2-6.4, Johnson (2014), Athey & Imbens (2016)
14	Opsamling og eksamen

Undervisningsmateriale

Seminarets litteratur er angivet i lektionsplanen ovenfor. Kolonnen Litteratur angiver det obligatoriske pensum, hvor særligt to titler står entralt:

R4DS: Wickam, H. & Grolemund, G. (2016). R for Data Science. O’Reilly Media.
ISL: James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: Springer.

Undervisningsmaterialet består derudover af online-ressourcer fra DataCamp, som stilles til rådighed i faget. Herunder følger et overblik.

Kurser på DataCamp

Anbefalede kurser

Supplerende kurser

* kurserne markeret med stjerne udgør de 23 kurser i DataCamp's eget career track "Data Scientist with R"

Målbeskrivelse

Seminarets målsætning er at klæde den studerende på til at kunne:

Importere, håndtere, transformere og visualisere data i R
Forklare væsensforskellene mellem kausalestimation og prædiktion
Formulere og designe et prædiktionsproblem
Analysere et selvvalgt politologisk emne ved anvendelse af fagets metoder
Reflektere over fordele og ulemper ved fagets metoder

Anbefalede faglige forudsætninger

Det forudsættes, at man har gennemført de obligatoriske metodekurser på bacheloruddannelsen i statskundskab, eller tilsvarende.

Det er ikke en forudsætning at have kendskab til R i forvejen, men det er en forudsætning at have mod på at arbejde i R.

Fagets underviser

Faget undervises af cand.scient.pol Jesper Svejgaard Jensen.

Undervisningsform

Undervisningen består af holdundervisning, hvor pensum bliver gennemgået. Indholdet i undervisningen vil både blive formidlet med slides samt eksempler i R.

Tilmelding

Sker via selvbetjeningen på KUnet.

Eksamen

Point

7,5 ECTS

Prøveform

Eksamen består af en selvstændig seminaropgave i form af en kvantitativ analyse af data. Opgaven kan være en ny problemstilling eller et replikationsstudium med afsæt i et eksisterende studium.

Krav til indstilling til eksamen

En betingelse for at bestå seminarer er, at den studerende har deltaget aktivt i seminaret, dels gennem tilstedeværelse i minimum 75% af undervisningen og dels gennem aktiv deltagelse

Bedømmelsesform og censur

Opgaven bedømmes på 7-trinsskalaen uden ekstern censur

Kriterier for bedømmelse

Karakter	Beskrivelse
12	Karakteren 12 gives for den fremragende præstation, dvs. hvor den studerende med ingen eller få og uvæsentlige mangler og på selvstændig og overbevisende måde er i stand til at indfri målbeskrivelsen for udbuddet.
07	Karakteren 7 gives for den gode præstation, dvs. hvor den studerende, om end med adskillige mangler, på sikker vis er i stand til at indfri målbeskrivelsen for udbuddet.
02	Karakteren 02 gives for den tilstrækkelige præstation, dvs. den minimalt acceptable præstation, hvor den studerende kun usikkert, mangelfuldt og/eller uselvstændigt er i stand til at indfri målbeskrivelsen for udbuddet.

Arbejdsbelastning

28 timers holdundervisning.

About

Political Data Science

Languages

Language:R 100.0%