schmokel / PDS

Political Data Science

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Political Data Science

I 2008 lancerede Google sin service Google Flu Trends, der gjorde Google i stand til at forudsige influenza-udbrud flere uger før nationale sundhedsmyndigheder var i stand til at identificere samme udbrud. Google Flu Trends er et eksempel på, hvordan data science kan bruges til at få værdifulde indsigter fra data, der kan danne baggrund for politisk handling.

Data science er en videnskab såvel som en kunst, hvor formålet er at ekstrahere viden og indsigter fra data. Processen består både i at hente, transformere, visualisere og analysere data – ofte med redskaber, som ikke indgår i den almindelige politologiske værktøjskasse. Formålet med kurset er at klæde de studerende på til selv at give sig i kast med nogle af de metoder og værktøjer, som er nybrud i politologien, fx i forbindelse med et speciale.

Centrale emner i kurset vil være:

  1. Hente data: Skaffe data fra alsidige datakilder såsom med scraping og API’er
  2. Præ-processering: Gøre data tidy og klar til analyse ved transformation af data
  3. Visualisering: Præsentere data på en intuitiv og appetitvækkende facon
  4. Statistisk læring: Klassificere og forudsige om data ved brug af især superviseret maskinlæring, såsom Random Forest og Gradient Boosted Trees

Kurset vil indeholde en blanding af teori og redskaber, og den tekniske del af kurset vil foregå i R.

Teorien vil blandt andet omfatte forskelle mellem kausalestimation og prædiktion, centrale koncepter i maskinlæring samt refleksioner om data science, herunder hvorfor Google har valgt at nedlægge Google Flu Trends. En del af eksemplerne i kurset vil tage udgangspunkt i mit eget speciale, hvor jeg anvendte maskinlæring til at forudsige og målrette tiltag imod uddannelsesfrafald på Professionshøjskolen Metropol.

Redskaberne i kurset vil blandt andet være centrale R-pakker såsom dplyr, ggplot2 og magrittr. I kurset stiftes også bekendtskab med at hente data ved at benytte API’er.

Kurset kan både stå alene og supplere kurset Videregående kvantitative metoder i studiet af politisk adfærd.

Lektionsplan

Nr Indhold Litteratur DataCamp Supplerende
1 Intro til kurset og R Leeper (2016),
R4DS: kap 1,
Healy (2017): kap 1-3
Introduction to R Imai (2016): kap 1,
CS: RStudio IDE,
CS: Base R
2 R workshop I:
Explore
R4DS: kap 2-6,
CS: Transformation
Introduction to the Tidyverse Zhang (2017),
Wickham (2014),
Risdal (2016)
3 R workshop II:
Import, tidy, transform
R4DS: kap 9-13,
CS: Data import
Cleaning Data in R,
Data Manipulation in R with dplyr,
Joining Data in R with dplyr
R4DS: kap 14-16,
Spachtholz (2017)
4 R workshop III:
Programmering & Git
R4DS: kap 17-19 + 21,
van Strien (2016)
Intermediate R R4DS: kap 20,
CS: Apply
5 Web scraping & API The Economist (2016),
Shiab (2015)
Working with Web Data in R Munzert et al (2014),
Wickham 2014,
Stephens-Davidowitz (2014),
6 Tekst som data Grimmer & Stewart (2013),
Wickham (2010),
CS: Strings
Sentiment Analysis in R: The Tidy Way King et al. (2013),
Benoit & Nulty (2016),
CS: quanteda
7 Visualisering DVSS: "Before you begin",
DVSS: kap 3 + 8,
CS: Visualisation
Data Visualization in R FiveThirtyEight (2016),
DVSS: kap 2,
Schwabish (2014)
8 GIS & spatiale data DVSS (2017): kap 7,
Woller (forthcoming): TBA,
Michalopoulos & Papaioannou (2013)
Working with Geospatial Data in R Lovelace & Cheshire (2014),
Kahle & Wickham (2013),
R-bloggers (2017),
Barfort (2017),
CS: Leaflet
9 Estimation & prædiktion ISL: kap 1,
ISL: kap 2 afs 2.1-2.2,
Bach & Svejgaard (2017): kap 1 afs 1.2 + kap 3 afs 3.1-3.2,
Varian (2014),
Hofman et al. (2017),
Kleinberg et al. (2015)
Supervised Learning in R: Classification Mullainathan & Spiess (2017),
Choi & Varian (2009),
Breiman et al. (2001)
10 Superviseret læring I ISL: kap 3 afs 3.1-3.4,
ISL: kap 4 afs 4.1-4.3,
ISL: kap 5 afs 5.1-5.2,
ISL: kap 6 afs 6.2
Supervised Learning in R: Regression Bach & Svejgaard (2017): kap 4 afs 4.1 + kap 5,
Kleinberg et al (2017)
11 Superviseret læring II ISL: kap 8 afs 8.1-8.2,
Montgomery & Olivella (2015),
DMLC (2016),
CS: Caret
Machine Learning Toolbox Kuhn (2017),
R-bloggers (2015)
12 Usuperviseret læring ISL: kap 10 afs 10.1-10.3 Unsupervised Learning in R Flores (2017a),
Flores 2017b,
Foster et al (2016)
13 Refleksioner om data science Anderson (2008),
Lazer et al (2014),
Samii (2016),
Athey (2017),
Mittelstadt et al (2016)
Exploratory Data Analysis Grimmer (2015),
Bach & Svejgaard (2017): kap 6 afs 6.2-6.4,
Johnson (2014),
Athey & Imbens (2016)
14 Opsamling og eksamen

Undervisningsmateriale

Seminarets litteratur er angivet i lektionsplanen ovenfor. Kolonnen Litteratur angiver det obligatoriske pensum, hvor særligt to titler står entralt:

  • R4DS: Wickam, H. & Grolemund, G. (2016). R for Data Science. O’Reilly Media.
  • ISL: James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: Springer.

Undervisningsmaterialet består derudover af online-ressourcer fra DataCamp, som stilles til rådighed i faget. Herunder følger et overblik.

Kurser på DataCamp

Anbefalede kurser

Supplerende kurser

* kurserne markeret med stjerne udgør de 23 kurser i DataCamp's eget career track "Data Scientist with R"

Målbeskrivelse

Seminarets målsætning er at klæde den studerende på til at kunne:

  • Importere, håndtere, transformere og visualisere data i R
  • Forklare væsensforskellene mellem kausalestimation og prædiktion
  • Formulere og designe et prædiktionsproblem
  • Analysere et selvvalgt politologisk emne ved anvendelse af fagets metoder
  • Reflektere over fordele og ulemper ved fagets metoder

Anbefalede faglige forudsætninger

Det forudsættes, at man har gennemført de obligatoriske metodekurser på bacheloruddannelsen i statskundskab, eller tilsvarende.

Det er ikke en forudsætning at have kendskab til R i forvejen, men det er en forudsætning at have mod på at arbejde i R.

Fagets underviser

Faget undervises af cand.scient.pol Jesper Svejgaard Jensen.

Undervisningsform

Undervisningen består af holdundervisning, hvor pensum bliver gennemgået. Indholdet i undervisningen vil både blive formidlet med slides samt eksempler i R.

Tilmelding

Sker via selvbetjeningen på KUnet.

Eksamen

Point

  • 7,5 ECTS

Prøveform

  • Eksamen består af en selvstændig seminaropgave i form af en kvantitativ analyse af data. Opgaven kan være en ny problemstilling eller et replikationsstudium med afsæt i et eksisterende studium.

Krav til indstilling til eksamen

  • En betingelse for at bestå seminarer er, at den studerende har deltaget aktivt i seminaret, dels gennem tilstedeværelse i minimum 75% af undervisningen og dels gennem aktiv deltagelse

Bedømmelsesform og censur

  • Opgaven bedømmes på 7-trinsskalaen uden ekstern censur

Kriterier for bedømmelse

Karakter Beskrivelse
12 Karakteren 12 gives for den fremragende præstation, dvs. hvor den studerende med ingen eller få og uvæsentlige mangler og på selvstændig og overbevisende måde er i stand til at indfri målbeskrivelsen for udbuddet.
07 Karakteren 7 gives for den gode præstation, dvs. hvor den studerende, om end med adskillige mangler, på sikker vis er i stand til at indfri målbeskrivelsen for udbuddet.
02 Karakteren 02 gives for den tilstrækkelige præstation, dvs. den minimalt acceptable præstation, hvor den studerende kun usikkert, mangelfuldt og/​​eller uselvstændigt er i stand til at indfri målbeskrivelsen for udbuddet.

Arbejdsbelastning

28 timers holdundervisning.

About

Political Data Science


Languages

Language:R 100.0%