Prontuario del curso: Estrategias para el modelado de datos con Tidy Models
Objetivo general
Desarrollar una comprensión integral de los conceptos fundamentales de computación y análisis de datos necesarios para el modelado y aprendizaje automático utilizando el entorno de R y el ecosistema de tidy models. A través de un enfoque práctico, aprenderás a limpiar, manejar y analizar datos, desarrollar trabajos reproducibles en investigación y aplicar estrategias de preprocesamiento, modelado y evaluación de modelos para resolver problemas del mundo real en ciencia de datos.
Requisitos para este curso
- Estrategias para trabajar con datos.
- Introducción a la Estadística para Investigadores de la Salud.
- Métodos para Desarrollar Modelos de Regresión Estadística.
- Estar familiarizados con los modelos de regresión lineal y los métodos de evaluación de modelos como la validación cruzada a pliegues y el error cuadrático medio.
Contenido del Curso
Módulo 1: Introducción general y objetivos
- Presentación de los objetivos del curso
- Introducción al modelado de datos y aprendizaje automático
- Presentación de los conjuntos de datos a utilizar
Módulo 2: Estrategias para crear trabajos reproducibles
- Importancia de la reproducibilidad en la investigación
- Buenas prácticas en la organización de proyectos en R
- Uso de herramientas para garantizar la reproducibilidad
Módulo 3: Modelado y aprendizaje automático con tidy models
Introducción a la Filosofía de tidy models
- Principios y ventajas del enfoque tidy para modelado de datos
- Diferencias entre tidy models y otros enfoques en aprendizaje automático
Infraestructura para remuestreo y evaluación de modelos
-
rsample
: Técnicas de remuestreo para evaluar modelos empíricamente
- Teoría y aplicación de cross-validation
Construcción y pre-procesamiento de modelos
-
parsnip
: Interfaz unificada para crear modelos en R
-
recipes
: Enfoque moderno para la ingeniería de datos y pre-procesamiento
- Teoría y aplicación del pre-procesamiento de datos
Flujos de trabajo y comparación de modelos
-
workflows
: Integración del pre-procesamiento y modelado en un solo objeto
-
workflow_set
: Ejecución y evaluación de múltiples modelos simultáneamente
Evaluación y validación de modelos
-
yardstick
: Herramientas para evaluar modelos de aprendizaje automático
- Métodos para evaluar modelos de regresión
- Métodos para evaluar modelos de clasificación
Interpretación y presentación de resultados
-
broom
: Conversión de resultados de modelado en tablas limpias y organizadas
- Generación de reportes y visualización de resultados
Instalaciones requeridas
-
Paquete estadístico R
-
El ambiente integrado de desarrollo Rstudio
- Meta paquete tidyverse
- Meta paquete tidy models
Referencias
Kuhn, M., & Johnson, K. (2020). Feature Engineering and Selection: A Practical Approach for Predictive Models. CRC Press, Taylor & Francis Group. https://bookdown.org/max/FES/
Kuhn, M., & Silge, J. (2022). Tidy Modeling with R. Tidy Modeling with R. https://www.tmwr.org/
Posit. (n.d.). Create tidy data. Tidy Messy Data • tidyr. https://tidyr.tidyverse.org/
Posit. (n.d.). dplyr. A Grammar of Data Manipulation • dplyr. https://dplyr.tidyverse.org/
Posit. (n.d.). Tidymodels. Easily Install and Load the Tidy Models Packages. https://tidymodels.tidymodels.org/
Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science. R for Data Science: Welcome. https://r4ds.had.co.nz/index.html