Contacta con nosotros

Temario del curso

Infraestructura como código para EXO

  • Resumen de patrones de implementación de EXO: clústeres de un solo nodo, multinode y con RDMA
  • Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) mediante gestión de configuraciones
  • Uso de Nix flakes para generar construcciones reproducibles de EXO y entornos de desarrollo
  • Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster

Construcciones reproducibles e integración con CI

  • Fijación de dependencias y construcción del panel de control en pipelines de CI
  • Ejecución de pruebas básicas de EXO en corredores de GitHub Actions o GitLab CI
  • Creación de imágenes doradas y flujos de trabajo de reversión basados en instantáneas para máquinas virtuales macOS y Linux
  • Versionado de tarjetas de modelos personalizados junto con el código de la aplicación

Descubrimiento del clúster y automatización de redes

  • Configuración de mDNS y DNS estático para el descubrimiento confiable de nodos libp2p
  • Automatización de la creación de perfiles de red y gestión de puentes Thunderbolt en macOS
  • Uso de espacios de nombres personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción
  • Reglas de firewall y segmentación de red para entornos multinquilatarios

Gestión del ciclo de vida del almacenamiento y los modelos

  • Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS
  • Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido
  • Recolección de elementos no utilizados (garbage collection) de cachés obsoletos y políticas de retención de pesos versionados
  • Automatización de la descarga previa de modelos y comprobaciones de salud antes de actualizaciones graduales

Monitoreo y alertas

  • Envío de registros de EXO a un registro centralizado (ELK, Loki o Splunk)
  • Construcción de paneles de control de Grafana a partir de la salida de EXO_TRACING_ENABLED
  • Configuración de alertas ante cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia
  • Correlación de la telemetría de hardware de macmon con regresiones en el rendimiento de los modelos

Actualización, reversión y recuperación ante desastres

  • Preparación de actualizaciones de binarios de EXO en un nodo canario antes del despliegue a toda la flota
  • Reversión a nivel de modelo: cambio entre versiones cuantizadas sin necesidad de volver a descargar
  • Respaldo y restauración del estado del clúster, espacios de nombres personalizados y pesos en caché
  • Documentación de procedimientos de recuperación para escenarios de reconstrucción total del clúster

endurecimiento de la seguridad y cumplimiento

  • Aplicación de TLS en la capa de proxy inverso (nginx, traefik) para el panel de control y la API
  • Implementación de limitación de tasa de API y lista blanca de IP para los extremos de EXO
  • Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero
  • Auditoría de accesos y mantenimiento de un inventario de modelos desplegados y sus versiones

Requerimientos

  • Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
  • Conocimiento de administración de sistemas macOS o Linux y gestión de paquetes
  • Comprensión de conceptos de redes, DNS y almacenamiento

Perfil del participante

  • Ingenieros de DevOps
  • Arquitectos de infraestructura
  • SREs responsables de cargas de trabajo de IA on-premise
 21 Horas

Número de participantes


Precio por participante

Testimonios (2)

Próximos cursos

Categorías Relacionadas