Oficina de webscraping de dados Legislativos com R e XML (Departamento de Ciência Política - USP)
Instrutor@s: Leonardo S. Barone (DCP-USP) e Alexia Aslan (NECI-USP)
Objetivos
O objetivo da oficina é fornecer uma breve introdução à captura de dados na internet usando a linguagem R e sua funcionalidades relacionadas a XML. Focaremos no aprendizado de estratégias de captura de páginas simples de internet, como páginas de Legislativos brasileiros e/ou de jornais com a finalidade de contruir bases de dados úteis à pesquisa em ciência política.
Trata-se de uma brevíssima introdução (e não de um curso completo) limitada à captura de páginas cujo cógido HTML é simples. Não trataremos de APIs, páginas de redes de relacionamentos ou páginas que requerem estratégias sofisticadas de captura.
Quando e onde?
Serão oferecidas duas edições da oficina, cada uma com dois encontros de 3 horas cada:
(1) 11 e 18 de Março de 2016, sextas-feiras, das 9h as 12h - sala 122
(2) 06 e 20 de Abril de 2016, quartas-feiras, das 9h as 12h - sala 122
Quem pode participar?
Podem participar da oficina alun@s (e ex-alun@s) de pós-graduação e professor@s do DCP-USP, alun@s de graduação em ciências sociais da FFLCH-USP atualmente matriculad@s e pesquisador@s dos centros de estudo vínculados ao DCP-USP. Serão oferecidas 24 vagas em cada edição. Caso haja mais de 24 inscritos, sortearemos os participantes. Caso haja menos de 24 inscritos, a participação será livre para qualquer interessado.
Inscrições:
Para participar, preencha o fomulário do link a seguir. Por favor, indique em qual das edições pode participar (você pode indicar as duas se puder partipar de ambas). A inscrição é gratuita.
Link para o [formulário] (http://goo.gl/forms/depBd7F99H)
Inscrever-se até dia 03 de março de 2016 (ou 08/03 para alunos de Métodos III do Prof. Glauco Peres).
Requisitos (IMPORTANTE)
O requisito para participação é conhecer o básico da linguagem R OU realizar gratuitamente e antes do primeiro encontro o curso "Introduction to R" no site [Datacamp] (https://www.datacamp.com/courses/free-introduction-to-r), com duração aproximada de 4 horas. Aviso: sem um conhecimento básico da linguagem R não será possível aproveitar adequadamente a oficina. Por favor, não se inscreva se não puder atender a este requisito.
Certificado
Está é uma oficina livre e gratuita e não haverá emissão de certificado de participação
Materiais
R é uma linguagem/ambiente livre e gratuita. Os materiais e atividade da oficina ficarão disponíveis neste repositório na forma de material auto-didático. Se, por acaso, você não tiver chance de participar pode dar uma olhada por aqui ao final das oficinas.
Links para os materiais:
- [Atividade 1] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_1.Rmd)
- [Atividade 2] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_2.Rmd)
- [Atividade 3] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/Atividade_3.Rmd)
- [Exemplo RSelenium] (https://github.com/leobarone/Webscraping_R_XML_Legislativo_2016_1/blob/master/exemplo_Selenium.R)