Contacta con nosotros

Temario del curso

1. Introducción al Aprendizaje por Refuerzo Profundo

  • ¿Qué es el Aprendizaje por Refuerzo?
  • Diferencias entre Aprendizaje Supervisado, No Supervisado y por Refuerzo.
  • Aplicaciones del DRL en 2025 (robótica, atención médica, finanzas, logística).
  • Comprensión del ciclo de interacción entre el agente y el entorno.

2. Fundamentos del Aprendizaje por Refuerzo

  • Procesos de Decisión de Markov (MDP).
  • Funciones de Estado, Acción, Recompensa, Política y Valor.
  • Compensación entre exploración y explotación.
  • Métodos de Monte Carlo y aprendizaje de Diferencia Temporal (TD).

3. Implementación de Algoritmos Básicos de Aprendizaje por Refuerzo

  • Métodos tabulares: Programación Dinámica, Evaluación de Política e Iteración.
  • Q-Learning y SARSA.
  • Exploración epsilon-greedy y estrategias de decaimiento.
  • Implementación de entornos de aprendizaje por refuerzo con OpenAI Gymnasium.

4. Transición al Aprendizaje por Refuerzo Profundo

  • Limitaciones de los métodos tabulares.
  • Uso de redes neuronales para la aproximación de funciones.
  • Arquitectura y flujo de trabajo de la Red Neuronal Q Profunda (DQN).
  • Replay de experiencias y redes objetivo.

5. Algoritmos Avanzados de DRL

  • Double DQN, Dueling DQN y Replay de Experiencias Priorizadas.
  • Métodos de Gradiente de Política: algoritmo REINFORCE.
  • Arquitecturas Actor-Crítico (A2C, A3C).
  • Optimización de Política Próxima (PPO).
  • Actor-Crítico Suave (SAC).

6. Trabajo con Espacios de Acción Continuos

  • Desafíos en el control continuo.
  • Uso de DDPG (Gradiente de Política Determinista Profunda).
  • DDPG Doble con Retraso (TD3).

7. Herramientas y Marcos de Trabajo Prácticos

  • Uso de Stable-Baselines3 y Ray RLlib.
  • Registro y monitoreo con TensorBoard.
  • Ajuste de hiperparámetros para modelos de DRL.

8. Ingeniería de Recompensas y Diseño de Entornos

  • Modelado de recompensas y equilibrio de penalizaciones.
  • Conceptos de transferencia de aprendizaje de simulación a la realidad.
  • Creación de entornos personalizados en Gymnasium.

9. Entornos Parcialmente Observables y Generalización

  • Manejo de información de estado incompleta (POMDP).
  • Enfoques basados en la memoria utilizando LSTMs y RNNs.
  • Mejora de la robustez y generalización del agente.

10. Teoría de Juegos y Aprendizaje por Refuerzo Multiagente

  • Introducción a entornos multiagente.
  • Cooperación frente a competencia.
  • Aplicaciones en entrenamiento adversarial y optimización de estrategias.

11. Estudios de Caso y Aplicaciones del Mundo Real

  • Simulaciones de conducción autónoma.
  • Precios dinámicos y estrategias de negociación financiera.
  • Robótica y automatización industrial.

12. Solución de Problemas y Optimización

  • Diagnóstico de entrenamientos inestables.
  • Gestión de la escasez de recompensas y sobreajuste.
  • Escalado de modelos de DRL en GPUs y sistemas distribuidos.

13. Resumen y Próximos Pasos

  • Resumen de la arquitectura de DRL y algoritmos clave.
  • Tendencias industriales y direcciones de investigación (por ejemplo, RLHF, modelos híbridos).
  • Recursos adicionales y materiales de lectura.

Requerimientos

  • Dominio de la programación en Python.
  • Comprensión de Cálculo y Álgebra Lineal.
  • Conocimientos básicos de Probabilidad y Estadística.
  • Experiencia en la construcción de modelos de aprendizaje automático utilizando Python y NumPy o TensorFlow/PyTorch.

Público objetivo

  • Desarrolladores interesados en IA y sistemas inteligentes.
  • Científicos de datos que exploran marcos de aprendizaje por refuerzo.
  • Ingenieros de Machine Learning que trabajan con sistemas autónomos.
 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas