Análisis estadístico utilizando R

Docentes 💻

Dr. Pablo Etchemendy (UNTreF/Conicet)
Dr. Ignacio Spiousas (UNQ/Conicet)

Fechas 📆

El curso se dictará del 2 al 26 de agosto de 2021. La modalidad de cursada será 100% virtual, con un 60% de clases “teóricas” asincrónicas y un 40% de clases prácticas y de consulta sincrónicas.

Inscripción 🗄

Si sos estudiante de doctorado de la UNQ te podés anotar a través del campus en la semana del 19 al 22 de junio.

Si sos estudiante externo podés encontrar toda la información pertinente acá.


Importante
El curso tiene el cupo completo pero estamos gestionando una extensión. Si estás interesado en cursar te invitamos a que completes una breve encuesta así nos podemos poner en contacto con vos ante cualquier novedad.

Bienvenidxs

Bienvenidxs al repositorio de GitHub del curso de posgrado Análisis estadístico utilizando R de la Unversidad Nacional de Quilmes. Acá vas a encontrar las presentaciones, tutoriales, ejemplos y ejercicios del curso.


Antes de empezar
Si ya estás inscripto en el curso te invitamos a que completes esta breve encuesta que nos va a ayudar a conocer a la “audiencia” para que el curso salga lo mejor posible. También los invitamos a unirse al espacio de trabajo del curso en Slack. Es muy importante que si vas a hacer el curso estés en el grupo de Slack ya que es el medio que vamos a utilizar para comunicarnos.

En este curso vamos a aprender a organizar, visualizar y modelar tus datos utilizando R para que puedas generar pipelines de análisis elegantes, seguros y reproducibles.

Los temas que vamos a tratar en el curso son:

Introducción a R Aprenderemos por qué R es una opción ideal para el análisis estadístico y sus rudimentos básicos.
Repaso de probabilidad y estadística Nos vamos a poner a tiro con conceptos básicos de variables aleatorias y distribuciones de probabilidad.
Inferencia estadística Pruebas de hipótesis y modelos, qué son, cuándo y cómo utilizarlos para entender nuestros datos.
Ciencia abierta Por qué, para qué y cómo la ciencia abierta es la llave hacia una ciencia mejor.
Trabajo final Lxs estudiantxs van a llevar adelante un modelo de análisis desde la limpieza de datos hasta las interpretaciones científicas.

Temario detallado

Unidad 1

Clase 1: Introducción a R: Bienvenido al Tidyverse! 👶
Introducción a R como herramienta de análisis de datos centrado en las librerías del Tidyverse (principalmente tidyR, dplyr y Purrr). Cómo leer, organizar, resumir y manipular datos experimentales para construir un insumo confiable y reproducible.
Clase 2: Visualización de datos con R 👩‍🎨
Como hacer gráficos que sean la envidia de tus colegas. Nociones básicas sobre el funcionamiento de ggplot2 (otra librería del Tidyverse).

Unidad 2

Clase 3: Revisando conceptos de probabilidad y estadística: Aleatoriedad y otros temas aleatorios 🎲
¿Qué es una variable aleatoria? ¿De dónde surgen los comportamientos aleatorios en la naturaleza? ¿Cómo podemos medir y describir ese tipo de variables? Variables aleatorias categóricas, discretas y continuas.
Clase 4: Revisando conceptos de probabilidad y estadística: Distribuciones estadísticas 📊
¿Qué es una distribución estadística? ¿Para qué se usa? ¿Cuál es la relación entre una variable aleatoria y una distribución estadística? Conceptos de densidad de probabilidad y probabilidad acumulada.

Unidad 3

Clase 5: Análisis exploratorio de datos 🤔
Caracterización de un conjunto de datos guiada mediante una hipótesis o no. Media, desvío estándar, varianza y error estándar muestrales. Coeficientes de correlación.
Clase 6: Prueba de hipótesis y control de errores: Potencia estadística, qué es y qué NO ES un p-value, y por qué es saludable reportar effect sizes 💻
Una de las prácticas estadísticas más extendidas son las pruebas de hipótesis (aún cuando no corresponden). En esta clase vamos a diseccionar su anatomía y explorar sus componentes básicos, como los tipos de errores, la potencia estadística, el p-value y los effect size. Intentaremos resumir las discusiones actuales alrededor del tan amado y, a la vez, odiado p-value.
Clase 7: Modelos jerárquicos: Qué son y para qué sirven los famosos modelos lineales de efectos mixtos 😨
Un p<0.05 en una prueba de hipótesis parece ser el santo grial científico al que todos queremos llegar, pero no siempre se trata de una metodología correcta y puede llevar a grandes errores de interpretación. En esta clase vamos a introducir a los alumnos en una de las técnicas de modelado (una muy popular) para tratar con análisis exploratorios.

Unidad 4

Clase 8: Ciencia Abierta: Por qué y para qué 😄
La Ciencia Abierta es un movimiento que tiene como objetivo hacer la investigación científica y su divulgación accesible en todo nivel. Se trata de un esfuerzo por construir una ciencia transparente y accesible en base a trabajos colaborativos y herramientas para compartir.
Clase 9: Ciencia Abierta: Cómo 📖
En esta clase exploraremos las opciones para la publicación eficiente y transparente tanto de nuestros datos como de nuestros códigos de análisis (por ejemplo, OSF, Github, etc.). También, como una consecuencia de la ciencia abierta vamos a hacer una mención a los pre-registros y por qué son importantes, cuándo son factibles y cómo llevarlos adelante.

Unidad 5

Clase 10: Presentación del trabajo final 🙏
Lxs alumnxs presentarán, para los docentes y el resto de sus compañerxs, los análisis que realizaron a modo de trabajo final. La idea es que puedan compartir una experiencia de aplicación honesta, con las complicaciones propias de la inferencia estadística en el mundo real.

Qué hacer antes de la primera clase

Antes de comenzar el curso es necesario que acondicionen su computadora para sacarle el máximo jugo a las clases. A continuación les contamos qué y cómo hacerlo y también van a poder encontrar un vídeo explicativo paso a paso en la página de You Tube del curso.

Instalación de R

Lo primero que hay que hacer para poder correr scripts de R es, como resulta evidente, instalar R. Lo pueden hacer seleccionando su sistema operativo en este link y siguiendo los pasos de la instalación.

Instalación de RStudio

Pueden bajar la versión gratuita de RStudio del siguiente link. En caso de que el link no haya detectado correctamente el sistema operativo, en la sección All Installers pueden seleccionarlo manualmente. Una vez descargado el instalador sólo hay que seguir los pasos de la intalación.

Clonado del repositorio

GitHub es una plataforma de desarrollo colaborativo que permite alojar proyectos utilizando el control de versiones Git. Para ustedes es simplemente el lugar donde van a encontrar todos los materiales del curso. Para bajar todos los materiales de una sola vez, lo que deben hacer es abrir el RStudio e ir a la solapa File/New Project. Una vez ahí deben seleccionar Version Control y luego Git. Seleccionen la carpeta donde quieran descargar el material del curso y (acá viene lo nuevo) en Repository URL copien esta URL https://github.com/spiousas/Inferencia_con_R_UNQ2021.git.

Una de las ventajas de estar conectado al repositorio es que cualquier cambio que hagamos en el repositorio de GitHub ustedes lo pueden actualizar en su carpeta local yendo a Tools/Version Control/Pull Branches.

Git y los repositorios online (como GitHub o GitLab) son una herramienta poderosísima para el trabajo colaborativo y la ciencia reproducible. Quedensé tranquilxs que a lo largo del curso van a aprender cómo incorporarlo a sus hábitos de trabajo.

Modo de evaluación:

Antes de comenzar con el desarrollo del trabajo final lxs alumnxs deberán completar un examen escrito en el que se evaluarán los contenidos básicos del curso. El formato del mismo será una mezcla de multiple-choice y casos de estudio (por ejemplo, encontrar el error en la interpretación de un análisis estadístico).

El trabajo final consistirá en aplicar los contenidos de la materia al análisis de datos propios o de alguna base de datos abiertos de un tema relacionado con la disciplina en la que se desarrolla el/la alumnx. De esta forma pretendemos cerrar la brecha entre los desarrollos teóricos y las aplicaciones prácticas de los contenidos, con todas las limitaciones que esto pudiera presentar.

Donde ver las clases

Las clases van a estar colgadas de manera pública en el canal de You Tube del curso

Bibliografía

Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. " O’Reilly Media, Inc.".

Rohlf, F. J., Sokal, R., & James, F. (1973). Introduction to biostatistics. San Francisco: WH Freeman.

Howell, D. C. (2009). Statistical methods for psychology. Cengage Learning.

Galecki, A., & Burzykowski, T. (2013). Linear Mixed-Effects Models Using R: A Step-by-step Approach.

Vicente-Sáez, R., & Martínez-Fuentes, C. (2018). Open Science now: A systematic literature review for an integrated definition. Journal of business research, 88, 428-436.

Tell it like it is. (2020). Nature Human Behaviour, 4(1), 1–1.

Optativa

Wickham, H. (2016). ggplot2: elegant graphics for data analysis. springer.

Ismay, C., & Kim, A. Y. (2019). Statistical Inference via Data Science: A ModernDive into R and the Tidyverse. CRC Press.

Leys, C., Delacre, M., Mora, Y. L., Lakens, D., & Ley, C. (2019). How to classify, detect, and manage univariate and multivariate outliers, with emphasis on pre-registration. International Review of Social Psychology, 32(1). https://www.rips-irsp.com/articles/10.5334/irsp.289/

Nieuwenhuis, S., Forstmann, B. U., & Wagenmakers, E. J. (2011). Erroneous analyses of interactions in neuroscience: a problem of significance. Nature neuroscience, 14(9), 1105-1107.

Lakens, D. (2019). The practical alternative to the p-value is the correctly used p-value.

Gelman, A., & Stern, H. (2006). The difference between “significant” and “not significant” is not itself statistically significant. The American Statistician, 60(4), 328-331.

*Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124 *

Duncan J Murdoch, Yu-Ling Tsai & James Adcock (2008) P-Values are Random Variables, The American Statistician, 62:3, 242-245, DOI: 10.1198/000313008X332421

*Makin, T. R., & de Xivry, J. J. O. (2019). Science Forum: Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife, 8, e48175. https://dx.doi.org/10.7554%2FeLife.48175 *

McElreath, R. (2020). Statistical rethinking: A Bayesian course with examples in R and Stan. CRC press.

Bates, D., Mächler, M., Bolker, B., & Walker, S. (2014). Fitting linear mixed-effects models using lme4. arXiv preprint arXiv:1406.5823.

*Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6), 615-631. https://doi.org/10.1177%2F1745691612459058 *

Foster, E. D., & Deardorff, A. (2017). Open science framework (OSF). Journal of the Medical Library Association: JMLA, 105(2), 203.

ioadeer / Inferencia_con_R_UNQ2021