Temario del curso

1. Introducción al Aprendizaje por Refuerzo Profundo

  • ¿Qué es el aprendizaje por refuerzo?
  • Diferencia entre aprendizaje supervisado, no supervisado y por refuerzo
  • Aplicaciones del ARL en 2025 (robótica, atención médica, finanzas, logística)
  • Comprensión del bucle de interacción agente-entorno

2. Fundamentos del Aprendizaje por Refuerzo

  • Procesos de Decisión de Markov (MDP)
  • Estado, Acción, Recompensa, Política y Funciones de Valor
  • Equilibrio entre exploración y explotación
  • Métodos Monte Carlo y aprendizaje por diferencias temporales (TD)

3. Implementación de Algoritmos Básicos de RL

  • Métodos tabulares: Programación Dinámica, Evaluación de Políticas e Iteración
  • Q-Learning y SARSA
  • Estrategias de exploración epsilon-greedy y decaimiento
  • Implementación de entornos de RL con OpenAI Gymnasium

4. Transición al Aprendizaje por Refuerzo Profundo

  • Límites de los métodos tabulares
  • Uso de redes neuronales para la aproximación de funciones
  • Arquitectura y flujo de trabajo de Redes Q Profundas (DQN)
  • Reproducción de experiencias y redes objetivo

5. Algoritmos Avanzados de ARL

  • Doble DQN, Dueling DQN y Reproducción Priorizada de Experiencia
  • Métodos de Gradiente de Política: algoritmo REINFORCE
  • Arquitecturas Actor-Crítico (A2C, A3C)
  • Optimización de Políticas Proximal (PPO)
  • Critic Actor Suave (SAC)

6. Trabajo con Espacios de Acción Continuos

  • Desafíos en el control continuo
  • Uso de DDPG (Gradiente de Política Determinístico Profundo)
  • Twin Delayed DDPG (TD3)

7. Herramientas y Frameworks Prácticos

  • Uso de Stable-Baselines3 y Ray RLlib
  • Registro y monitoreo con TensorBoard
  • Afinación de hiperparámetros para modelos de ARL

8. Ingeniería de Recompensas y Diseño de Entornos

  • Diseño de recompensas y equilibrio de penalizaciones
  • Conceptos de transferencia de aprendizaje sim-to-real
  • Creación de entornos personalizados en Gymnasium

9. Entornos Parcialmente Observables y Generalización

  • Gestión de información de estado incompleta (POMDPs)
  • Enfoques basados en memoria usando LSTMs y RNNs
  • Mejora de la robustez y generalización del agente

10. Teoría de Juegos y Aprendizaje por Refuerzo Multiagente

  • Introducción a entornos multiagente
  • Cooperación vs. competencia
  • Aplicaciones en entrenamiento adversarial y optimización de estrategias

11. Estudios de Caso y Aplicaciones del Mundo Real

  • Simulaciones de conducción autónoma
  • Estrategias dinámicas de precios y trading financiero
  • Robótica y automatización industrial

12. Solución de Problemas y Optimización

  • Diagnóstico de entrenamiento inestable
  • Gestión de la dispersa recompensa y el overfitting
  • Escalar modelos de ARL en GPUs y sistemas distribuidos

13. Resumen y Pasos Siguientes

  • Resumen de la arquitectura de ARL y algoritmos clave
  • Tendencias de la industria y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
  • Más recursos y materiales de lectura

Requerimientos

  • Competencia en programación con Python
  • Comprensión de Cálculo y Álgebra Lineal
  • Experiencia construyendo modelos de aprendizaje automático utilizando Python y NumPy o TensorFlow/PyTorch

Público Objetivo

  • Desarrolladores interesados en IA y sistemas inteligentes
  • Científicos de datos que exploran marcos de aprendizaje por refuerzo
  • Ingenieros de Aprendizaje Automático que trabajan con sistemas autónomos
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas