Temario del curso
1. Introducción al Aprendizaje por Refuerzo Profundo
- ¿Qué es el Aprendizaje por Refuerzo?
- Diferencias entre Aprendizaje Supervisado, No Supervisado y por Refuerzo.
- Aplicaciones del DRL en 2025 (robótica, atención médica, finanzas, logística).
- Comprensión del ciclo de interacción entre el agente y el entorno.
2. Fundamentos del Aprendizaje por Refuerzo
- Procesos de Decisión de Markov (MDP).
- Funciones de Estado, Acción, Recompensa, Política y Valor.
- Compensación entre exploración y explotación.
- Métodos de Monte Carlo y aprendizaje de Diferencia Temporal (TD).
3. Implementación de Algoritmos Básicos de Aprendizaje por Refuerzo
- Métodos tabulares: Programación Dinámica, Evaluación de Política e Iteración.
- Q-Learning y SARSA.
- Exploración epsilon-greedy y estrategias de decaimiento.
- Implementación de entornos de aprendizaje por refuerzo con OpenAI Gymnasium.
4. Transición al Aprendizaje por Refuerzo Profundo
- Limitaciones de los métodos tabulares.
- Uso de redes neuronales para la aproximación de funciones.
- Arquitectura y flujo de trabajo de la Red Neuronal Q Profunda (DQN).
- Replay de experiencias y redes objetivo.
5. Algoritmos Avanzados de DRL
- Double DQN, Dueling DQN y Replay de Experiencias Priorizadas.
- Métodos de Gradiente de Política: algoritmo REINFORCE.
- Arquitecturas Actor-Crítico (A2C, A3C).
- Optimización de Política Próxima (PPO).
- Actor-Crítico Suave (SAC).
6. Trabajo con Espacios de Acción Continuos
- Desafíos en el control continuo.
- Uso de DDPG (Gradiente de Política Determinista Profunda).
- DDPG Doble con Retraso (TD3).
7. Herramientas y Marcos de Trabajo Prácticos
- Uso de Stable-Baselines3 y Ray RLlib.
- Registro y monitoreo con TensorBoard.
- Ajuste de hiperparámetros para modelos de DRL.
8. Ingeniería de Recompensas y Diseño de Entornos
- Modelado de recompensas y equilibrio de penalizaciones.
- Conceptos de transferencia de aprendizaje de simulación a la realidad.
- Creación de entornos personalizados en Gymnasium.
9. Entornos Parcialmente Observables y Generalización
- Manejo de información de estado incompleta (POMDP).
- Enfoques basados en la memoria utilizando LSTMs y RNNs.
- Mejora de la robustez y generalización del agente.
10. Teoría de Juegos y Aprendizaje por Refuerzo Multiagente
- Introducción a entornos multiagente.
- Cooperación frente a competencia.
- Aplicaciones en entrenamiento adversarial y optimización de estrategias.
11. Estudios de Caso y Aplicaciones del Mundo Real
- Simulaciones de conducción autónoma.
- Precios dinámicos y estrategias de negociación financiera.
- Robótica y automatización industrial.
12. Solución de Problemas y Optimización
- Diagnóstico de entrenamientos inestables.
- Gestión de la escasez de recompensas y sobreajuste.
- Escalado de modelos de DRL en GPUs y sistemas distribuidos.
13. Resumen y Próximos Pasos
- Resumen de la arquitectura de DRL y algoritmos clave.
- Tendencias industriales y direcciones de investigación (por ejemplo, RLHF, modelos híbridos).
- Recursos adicionales y materiales de lectura.
Requerimientos
- Dominio de la programación en Python.
- Comprensión de Cálculo y Álgebra Lineal.
- Conocimientos básicos de Probabilidad y Estadística.
- Experiencia en la construcción de modelos de aprendizaje automático utilizando Python y NumPy o TensorFlow/PyTorch.
Público objetivo
- Desarrolladores interesados en IA y sistemas inteligentes.
- Científicos de datos que exploran marcos de aprendizaje por refuerzo.
- Ingenieros de Machine Learning que trabajan con sistemas autónomos.
Testimonios (3)
Me gustó mucho el final donde tuvimos la oportunidad de experimentar con CHAT GPT. La sala no estaba muy bien preparada para esto; en lugar de una gran mesa, varias mesas pequeñas nos habrían permitido formar grupos pequeños y generar ideas de manera más efectiva.
Nola - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Traducción Automática
Trabajando desde principios fundamentales de manera enfocada y pasando a aplicar estudios de caso en el mismo día
Maggie Webb - Department of Jobs, Regions, and Precincts
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Traducción Automática
Que se estuviera aplicando datos reales de la empresa. El formador tenía un enfoque muy bueno al hacer que los participantes colaboraran y competieran.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Curso - Applied AI from Scratch in Python
Traducción Automática