Contacta con nosotros

Temario del curso

Introducción al aprendizaje por refuerzo a partir de retroalimentación humana (RLHF)

  • ¿Qué es RLHF y por qué es importante?
  • Comparación con los métodos de ajuste fino supervisado
  • Aplicaciones de RLHF en sistemas modernos de IA

Modelado de recompensas con retroalimentación humana

  • Recopilación y estructuración de la retroalimentación humana
  • Construcción y entrenamiento de modelos de recompensa
  • Evaluación de la eficacia del modelo de recompensa

Entrenamiento con optimización por política proximal (PPO)

  • Visión general de los algoritmos PPO para RLHF
  • Implementación de PPO con modelos de recompensa
  • Ajuste fino iterativo y seguro de los modelos

Ajuste fino práctico de modelos de lenguaje

  • Preparación de conjuntos de datos para flujos de trabajo de RLHF
  • Ajuste fino práctico de un modelo de lenguaje pequeño (LLM) mediante RLHF
  • Desafíos y estrategias de mitigación

Escalado de RLHF a sistemas en producción

  • Consideraciones sobre infraestructura y capacidad de cómputo
  • Control de calidad y bucles de retroalimentación continua
  • Mejores prácticas para el despliegue y el mantenimiento

Consideraciones éticas y mitigación de sesgos

  • Abordaje de riesgos éticos en la retroalimentación humana
  • Estrategias de detección y corrección de sesgos
  • Asegurar la alineación y las salidas seguras

Casos de estudio y ejemplos del mundo real

  • Caso de estudio: Ajuste fino de ChatGPT con RLHF
  • Otros despliegues exitosos de RLHF
  • Lecciones aprendidas e información del sector

Resumen y próximos pasos

Requerimientos

  • Comprensión de los fundamentos del aprendizaje supervisado y del aprendizaje por refuerzo
  • Experiencia con el ajuste fino de modelos y arquitecturas de redes neuronales
  • Conocimiento de la programación en Python y de frameworks de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch)

Público objetivo

  • Ingenieros de aprendizaje automático
  • Investigadores de inteligencia artificial
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas