Contacta con nosotros

Temario del curso

Introducción a EXO y Clustering de IA Local

  • Visión general del marco de trabajo EXO y el ecosistema exo-explore
  • Comparación entre la inferencia centralizada en la nube y la inferencia local distribuida
  • Arquitectura: descubrimiento de dispositivos libp2p, backend MLX, tablero de control y capas de API
  • Requisitos de hardware: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, almacenamiento compartido

Instalación de EXO en macOS

  • Configuración de Xcode, Metal ToolChain y prerequisitos de macOS
  • Instalación de uv, Node.js y Rust toolchain nightly
  • Instalación de la versión fijada del fork macmon para monitoreo de Apple Silicon
  • Clonado del repositorio y compilación del tablero de control con npm
  • Ejecución de EXO desde el código fuente y verificación del tablero de control en localhost:52415

Instalación de EXO en Linux

  • Instalación de dependencias mediante apt o Homebrew en Linux
  • Configuración de uv, Node.js 18+ y Rust nightly
  • Compilación del tablero de control y ejecución de EXO en modo solo CPU
  • Estructura de directorios: rutas XDG Base Directory para configuración, datos, caché y registros

Descubrimiento Automático de Dispositivos y Formación de Cluster

  • Comprensión del auto-descubrimiento basado en libp2p en redes locales
  • Configuración de espacios de nombres personalizados con EXO_LIBP2P_NAMESPACE para aislamiento del cluster
  • Verificación de la pertenencia de los nodos en la vista del cluster del tablero de control
  • Gestión de fallos en el descubrimiento y problemas de segmentación de red

Habilitación de RDMA sobre Thunderbolt 5

  • Arquitectura RDMA y la afirmación de reducción del 99% en latencia
  • Habilitación de RDMA en el modo de recuperación de macOS con rdma_ctl
  • Requisitos de cables y restricciones de topología de puertos en Mac Studio
  • Correspondencia de versiones de macOS en todos los nodos del cluster
  • Resolución de problemas de descubrimiento RDMA y configuración DHCP

Despliegue de Modelos de Última Generación

  • Uso del tablero de control para cargar y fragmentar (sharding) modelos DeepSeek v3.1, Qwen3-235B y la familia Llama
  • Previsualización de la ubicación de instancias con el endpoint /instance/previews de la API
  • Creación de instancias de modelo mediante sharding de tubería (pipeline) o paralelismo tensor
  • Configuración de tarjetas de modelo personalizadas desde el hub de HuggingFace

Monitoreo y Resolución de Problemas

  • Lectura de registros de EXO y comprensión del rastreo distribuido
  • Interpretación de la salud del cluster en la vista del cluster del tablero de control
  • Diagnóstico de fallos en los nodos trabajadores y comportamiento de reconexión
  • Uso de EXO_TRACING_ENABLED para análisis de cuellos de botella de rendimiento

Mantenimiento del Cluster y Actualizaciones

  • Actualización de los binarios de EXO y procedimientos de reconstrucción del tablero de control
  • Migración de cachés de modelos y gestión de modelos pre-descargados sobre NFS
  • Eliminación ordenada de nodos y reequilibrio de cargas de trabajo

Requerimientos

  • Comprensión de los fundamentos de redes (IP, segmentación de subredes, firewalls)
  • Experiencia con la administración por línea de comandos de macOS o Linux
  • Familiaridad con la gestión de paquetes de Python (pip/uv) y herramientas de Node.js

Público Objetivo

  • Administradores de sistemas
  • Ingenieros de DevOps
  • Arquitectos de infraestructura de IA responsables del despliegue de LLM on-premise
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas