Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Infraestructura como código para EXO
- Resumen de patrones de implementación de EXO: clústeres de un solo nodo, multinode y con RDMA
- Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) mediante gestión de configuraciones
- Uso de Nix flakes para generar construcciones reproducibles de EXO y entornos de desarrollo
- Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster
Construcciones reproducibles e integración con CI
- Fijación de dependencias y construcción del panel de control en pipelines de CI
- Ejecución de pruebas básicas de EXO en corredores de GitHub Actions o GitLab CI
- Creación de imágenes doradas y flujos de trabajo de reversión basados en instantáneas para máquinas virtuales macOS y Linux
- Versionado de tarjetas de modelos personalizados junto con el código de la aplicación
Descubrimiento del clúster y automatización de redes
- Configuración de mDNS y DNS estático para el descubrimiento confiable de nodos libp2p
- Automatización de la creación de perfiles de red y gestión de puentes Thunderbolt en macOS
- Uso de espacios de nombres personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción
- Reglas de firewall y segmentación de red para entornos multinquilatarios
Gestión del ciclo de vida del almacenamiento y los modelos
- Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS
- Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido
- Recolección de elementos no utilizados (garbage collection) de cachés obsoletos y políticas de retención de pesos versionados
- Automatización de la descarga previa de modelos y comprobaciones de salud antes de actualizaciones graduales
Monitoreo y alertas
- Envío de registros de EXO a un registro centralizado (ELK, Loki o Splunk)
- Construcción de paneles de control de Grafana a partir de la salida de EXO_TRACING_ENABLED
- Configuración de alertas ante cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia
- Correlación de la telemetría de hardware de macmon con regresiones en el rendimiento de los modelos
Actualización, reversión y recuperación ante desastres
- Preparación de actualizaciones de binarios de EXO en un nodo canario antes del despliegue a toda la flota
- Reversión a nivel de modelo: cambio entre versiones cuantizadas sin necesidad de volver a descargar
- Respaldo y restauración del estado del clúster, espacios de nombres personalizados y pesos en caché
- Documentación de procedimientos de recuperación para escenarios de reconstrucción total del clúster
endurecimiento de la seguridad y cumplimiento
- Aplicación de TLS en la capa de proxy inverso (nginx, traefik) para el panel de control y la API
- Implementación de limitación de tasa de API y lista blanca de IP para los extremos de EXO
- Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero
- Auditoría de accesos y mantenimiento de un inventario de modelos desplegados y sus versiones
Requerimientos
- Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
- Conocimiento de administración de sistemas macOS o Linux y gestión de paquetes
- Comprensión de conceptos de redes, DNS y almacenamiento
Perfil del participante
- Ingenieros de DevOps
- Arquitectos de infraestructura
- SREs responsables de cargas de trabajo de IA on-premise
21 Horas
Testimonios (2)
El conocimiento y experiencia del consultor ya que se abordan los temas teóricos aplicándolos a la realidad de los procesos. El curso contiene un programa de mucho valor en la gestión de las tecnologías de información.
Luis Castro Gamboa - Cooperativa De Ahorro Y Credito Ande No. 1 R.L.
Curso - Site Reliability Engineering (SRE) Foundation®
Que fue muy claro en cada especificación