Contacta con nosotros

Temario del curso

Fundamentos de Tencent Hunyuan para Producción

  • Descripción general de los escenarios de servicio de modelos Tencent Hunyuan.
  • Características de producción de modelos grandes y MoE.
  • Principales cuellos de botella de latencia, capacidad de procesamiento y costos.
  • Definición de objetivos de nivel de servicio (SLO) para cargas de trabajo de inferencia.

Arquitectura de Despliegue y Flujo de Servicio

  • Componentes principales de una pila de inferencia en producción.
  • Elección entre modelos de despliegue contenerizado, local (on-premise) y en la nube.
  • Carga de modelos, enrutamiento de solicitudes y asignación de GPU básicos.
  • Diseño para confiabilidad y simplicidad operativa.

Optimización de Latencia en la Práctica

  • Uso de motores de inferencia optimizados como TensorRT, cuando sea aplicable.
  • Conceptos del KV-cache y ajuste práctico del caché.
  • Reducción de la sobrecarga de inicio, calentamiento (warmup) y respuesta.
  • Medición del tiempo hasta el primer token y la velocidad de generación de tokens.

Capacidad de Procesamiento, Agrupación (Batching) y Eficiencia de GPU

  • Estrategias de agrupación continua y de solicitudes.
  • Gestión de la concurrencia y el comportamiento de las colas.
  • Mejora de la utilización de GPU sin afectar la experiencia del usuario.
  • Manejo de solicitudes de contexto largo y cargas de trabajo mixtas.

Cuantización y Control de Costos

  • Por qué la cuantización es importante para el servicio en producción.
  • Compromisos prácticos de FP16, INT8 y otras opciones de precisión comunes.
  • Equilibrio entre la calidad del modelo, la latencia y el costo de infraestructura.
  • Creación de una lista de verificación simple para la optimización de costos.

Operaciones, Monitoreo y Revisión de Preparación

  • Disparadores para el escalado automático de servicios de inferencia.
  • Monitoreo de latencia, capacidad de procesamiento, uso de caché y estado de la GPU.
  • Aspectos básicos de registro de eventos, alertas y respuesta a incidentes.
  • Revisión de una implementación de referencia y creación de un plan de mejora.

Requerimientos

  • Comprensión básica de los flujos de trabajo de despliegue e inferencia de modelos de lenguaje grandes.
  • Experiencia con contenedores, infraestructura en la nube o local (on-premise) y servicios basados en API.
  • Conocimiento práctico de Python o tareas de ingeniería de sistemas.

Público Objetivo

  • Ingenieros de ML que despliegan LLMs en producción.
  • Ingenieros de plataforma responsables de servicios de inferencia basados en GPU.
  • Arquitectos de soluciones que diseñan plataformas de servicio de IA escalables.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas