Contacta con nosotros

Temario del curso

Introducción a la escalabilidad de Ollama

  • Arquitectura de Ollama y consideraciones de escalado
  • Problemas comunes en implementaciones multiusuario
  • Mejores prácticas para la preparación de la infraestructura

Asignación de recursos y optimización de GPU

  • Estrategias eficientes de utilización de CPU/GPU
  • Consideraciones de memoria y ancho de banda
  • Restricciones de recursos a nivel de contenedor

Implementación con contenedores y Kubernetes

  • Contenedurización de Ollama con Docker
  • Ejecución de Ollama en clústeres de Kubernetes
  • Balanceo de carga y descubrimiento de servicios

Escalado automático y agrupación

  • Diseño de políticas de escalado automático para Ollama
  • Técnicas de inferencia por lotes para optimizar el rendimiento
  • Compensación entre latencia y rendimiento

Optimización de la latencia

  • Perfilamiento del rendimiento de la inferencia
  • Estrategias de almacenamiento en caché y preparación del modelo
  • Reducción de la sobrecarga de entrada/salida y comunicación

Monitoreo y observabilidad

  • Integración de Prometheus para métricas
  • Construcción de tableros con Grafana
  • Alertas y respuesta a incidentes para la infraestructura de Ollama

Gestión de costos y estrategias de escalado

  • Asignación de GPU consciente de los costos
  • Consideraciones de implementación en la nube frente a local
  • Estrategias para un escalado sostenible

Resumen y próximos pasos

Requerimientos

  • Experiencia con administración de sistemas Linux
  • Comprensión de contenedores y orquestación
  • Familiaridad con la implementación de modelos de aprendizaje automático

Público objetivo

  • Ingenieros de DevOps
  • Equipos de infraestructura de aprendizaje máquina
  • Ingenieros de confiabilidad del sitio
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas