Temario del curso

1. Introducción al Deep Reinforcement Learning

  • ¿Qué es el Aprendizaje por Refuerzo?
  • Diferencia entre Aprendizaje Supervisado, No Supervisado y por Refuerzo
  • Aplicaciones del DRL en 2025 (robótica, atención médica, finanzas, logística)
  • Entendimiento del ciclo de interacción agente-entorno

2. Fundamentos del Aprendizaje por Refuerzo

  • Procesos de Decisión de Markov (MDP)
  • Estado, Acción, Recompensa, Política y Funciones de Valor
  • Equilibrio entre Exploración y Explotación
  • Métodos Monte Carlo y Aprendizaje Temporal-Diferencia (TD)

3. Implementando Algoritmos Básicos de RL

  • Métodos tabulares: Programación Dinámica, Evaluación de Políticas y Iteración
  • Q-Learning y SARSA
  • Exploración epsilon-greedy y estrategias de decrecimiento
  • Implementando entornos de RL con OpenAI Gymnasium

4. Transición al Deep Reinforcement Learning

  • Limitaciones de los métodos tabulares
  • Uso de redes neuronales para la aproximación funcional
  • Arquitectura y flujo de trabajo de Deep Q-Network (DQN)
  • Repetición de experiencias y redes objetivo

5. Algoritmos Avanzados de DRL

  • Double DQN, Dueling DQN y Repetición Priorizada de Experiencias
  • Métodos de Gradientes de Políticas: Algoritmo REINFORCE
  • Arquitecturas Actor-Critic (A2C, A3C)
  • Optimización de Política Proximal (PPO)
  • Soft Actor-Critic (SAC)

6. Trabajando con Espacios de Acciones Continuas

  • Desafíos en el control continuo
  • Uso de DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Herramientas y Marco Práctico

  • Uso de Stable-Baselines3 y Ray RLlib
  • Registro y monitoreo con TensorBoard
  • Ajuste de hiperparámetros para modelos de DRL

8. Ingeniería de Recompensas y Diseño de Entornos

  • Formación de recompensas y equilibrio de penalizaciones
  • Conceptos de transferencia de aprendizaje simulación a realidad
  • Creación de entornos personalizados en Gymnasium

9. Entornos Parcialmente Observables y Generalización

  • Manejo de información estatal incompleta (POMDPs)
  • Enfoques basados en memoria usando LSTMs y RNNs
  • Mejora de la robustez y generalización del agente

10. Teoría de Juegos y Aprendizaje por Refuerzo Multi-Agente

  • Introducción a entornos multi-agente
  • Cooperación vs. Competencia
  • Aplicaciones en entrenamiento adversarial y optimización de estrategias

11. Estudios de Caso y Aplicaciones del Mundo Real

  • Simulaciones de conducción autónoma
  • Precio dinámico y estrategias de trading financiero
  • Robótica y automatización industrial

12. Solución de Problemas y Optimización

  • Diagnóstico del entrenamiento inestable
  • Manejo de la escasez de recompensas y el sobreajuste
  • Escalado de modelos de DRL en GPUs y sistemas distribuidos

13. Resumen y Pasos Siguientes

  • Repaso de la arquitectura de DRL y algoritmos clave
  • Tendencias de la industria y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
  • Recursos adicionales y materiales de lectura

Requerimientos

  • Dominio del lenguaje de programación Python
  • Comprensión del Cálculo y el Álgebra Lineal
  • Conocimientos básicos de Probabilidad y Estadística
  • Experiencia en la construcción de modelos de aprendizaje automático usando Python y NumPy o TensorFlow/PyTorch

Audiencia

  • Desarrolladores interesados en IA y sistemas inteligentes
  • Científicos de datos que exploran marcos de aprendizaje por refuerzo
  • Ingenieros de Aprendizaje Automático que trabajan con sistemas autónomos
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas