Prontuario del curso: Estrategias para el modelado de datos con Tidy Models

Objetivo general

Desarrollar una comprensión integral de los conceptos fundamentales de computación y análisis de datos necesarios para el modelado y aprendizaje automático utilizando el entorno de R y el ecosistema de tidy models. A través de un enfoque práctico, aprenderás a limpiar, manejar y analizar datos, desarrollar trabajos reproducibles en investigación y aplicar estrategias de preprocesamiento, modelado y evaluación de modelos para resolver problemas del mundo real en ciencia de datos.

Requisitos para este curso

  1. Estrategias para trabajar con datos.
  2. Introducción a la Estadística para Investigadores de la Salud.
  3. Métodos para Desarrollar Modelos de Regresión Estadística.
  4. Estar familiarizados con los modelos de regresión lineal y los métodos de evaluación de modelos como la validación cruzada a pliegues y el error cuadrático medio.

Contenido del Curso

Módulo 1: Introducción general y objetivos

  • Presentación de los objetivos del curso
  • Introducción al modelado de datos y aprendizaje automático
  • Presentación de los conjuntos de datos a utilizar

Módulo 2: Estrategias para crear trabajos reproducibles

  • Importancia de la reproducibilidad en la investigación
  • Buenas prácticas en la organización de proyectos en R
  • Uso de herramientas para garantizar la reproducibilidad

Módulo 3: Modelado y aprendizaje automático con tidy models

Introducción a la Filosofía de tidy models

  • Principios y ventajas del enfoque tidy para modelado de datos
  • Diferencias entre tidy models y otros enfoques en aprendizaje automático

Infraestructura para remuestreo y evaluación de modelos

  • rsample: Técnicas de remuestreo para evaluar modelos empíricamente
  • Teoría y aplicación de cross-validation

Construcción y pre-procesamiento de modelos

  • parsnip: Interfaz unificada para crear modelos en R
  • recipes: Enfoque moderno para la ingeniería de datos y pre-procesamiento
  • Teoría y aplicación del pre-procesamiento de datos

Flujos de trabajo y comparación de modelos

  • workflows: Integración del pre-procesamiento y modelado en un solo objeto
  • workflow_set: Ejecución y evaluación de múltiples modelos simultáneamente

Evaluación y validación de modelos

  • yardstick: Herramientas para evaluar modelos de aprendizaje automático
  • Métodos para evaluar modelos de regresión
  • Métodos para evaluar modelos de clasificación

Interpretación y presentación de resultados

  • broom: Conversión de resultados de modelado en tablas limpias y organizadas
  • Generación de reportes y visualización de resultados

Instalaciones requeridas

Referencias