Prontuario del curso: Estrategias para trabajar con datos
Objetivo general
Desarrollar habilidades fundamentales para la manipulación y gestión de datos en estructuras tabulares, utilizando el lenguaje de programación R y sus principales herramientas para la preparación y transformación de datos, permitiéndoles aplicar estos conocimientos de manera eficiente en sus entornos laborales y proyectos de análisis de datos.
Contenido del Curso
Módulo 1: Introducción a las estrategias para trabajar con datos
- Introducción al lenguaje R
- Instalación de paquetes e interfaz de usuario
- Paquete estadístico R
- Ambiente integrado de desarrollo RStudio
- Interfaz de usuario Jamovi
- Paquete estadístico R
- Paquetes para funcionalidades extra
- Presentación de los conjuntos de datos a utilizar
Módulo 2: Introducción a los tipos de variables y estructuras de datos
- Identificación y clasificación de variables
- Tipos de estructuras de datos en tablas
Módulo 3: Estrategias para crear trabajos reproducibles
- Importancia de la reproducibilidad en la investigación
- Ética y conducta en el manejo de datos de investigación
Módulo 4: Importación y Preparación de Datos en R
- Técnicas de importación de datos desde diversas fuentes
- Estrategias de limpieza y preparación de datos
Módulo 5: Introducción a los tipos de variables y estructuras de datos
- Identificación y clasificación de variables
- Tipos de estructuras de datos en tablas
Módulo 6: Estrategias para crear trabajos reproducibles
- Importancia de la reproducibilidad en la investigación
- Ética y conducta en el manejo de datos de investigación
- Técnicas de importación de datos desde diversas fuentes
- Estrategias de limpieza y preparación de datos
Módulo 7: Uso del paquete tidyr
para la estructuración de datos
- Conceptos de datos estructurados
- Transformaciones básicas para estructurar datos de forma eficiente
- Definir conjuntos de datos limpios
-
data.frame
vs.tibble
- Selección de subconjuntos
- Remodelación de datos
- Separación y combinación de columnas tipo caracter
- Manejo de datos nulos
- Manejo del tipo de datos
list
-
Módulo 8: Gramática del manejo de datos con dplyr
- Introducción a los verbos de
dplyr
- Manejo de casos
- Resumen de información de los casos
- Agrupación de información de los casos
- Resumen de información de los casos
- Manejo de variables
- Funciones vectorizadas
- Funciones de resumen
- Funciones vectorizadas
- Combinación de diferentes tablas
- Aplicación de la gramática en diferentes entornos:
- Datos en memoria
- Datos en bases de datos
- Datos en Apache Spark
- Datos en memoria
Referencias
Posit. (n.d.). Create tidy data. Tidy Messy Data • tidyr. https://tidyr.tidyverse.org/
Posit. (n.d.). dplyr. A Grammar of Data Manipulation • dplyr. https://dplyr.tidyverse.org/
Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science. R for Data Science: Welcome. https://r4ds.hadley.nz/