Contacta con nosotros

Temario del curso

Soberanía de la IA y Despliegue Local de LLM

  • Riesgos de los LLM en la nube: retención de datos, entrenamiento con entradas, jurisdicción extranjera.
  • Arquitectura de Ollama: servidor de modelos, registro y API compatible con OpenAI.
  • Comparación con vLLM, llama.cpp y Text Generation Inference.
  • Licencias de modelos: términos de Llama, Mistral, Qwen y Gemma.

Instalación y Configuración de Hardware

  • Instalación de Ollama en Linux con soporte para CUDA y ROCm.
  • Alternativa solo con CPU y optimización de AVX/AVX2.
  • Despliegue con Docker y mapeo de volúmenes persistentes.
  • Configuración multi-GPU y estrategias de asignación de VRAM.

Gestión de Modelos

  • Descarga de modelos desde el registro de Ollama: ollama pull llama3.
  • Importación de modelos GGUF desde HuggingFace y TheBloke.
  • Niveles de cuantización: compensaciones entre Q4_K_M, Q5_K_M y Q8_0.
  • Cambios de modelo y límites de carga concurrente de modelos.

Modelfiles Personalizados

  • Escritura de la sintaxis de Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ajuste de temperatura, top_p y repeat_penalty.
  • Ingeniería de indicaciones del sistema para comportamiento específico por rol.
  • Creación y publicación de modelos personalizados en el registro local.

Integración de API

  • Endpoint /v1/chat/completions compatible con OpenAI.
  • Respuestas en streaming y modo JSON.
  • Integración con LangChain, LlamaIndex y aplicaciones personalizadas.
  • Autenticación y limitación de tasa con proxy inverso.

Optimización del Rendimiento

  • Tamaño de la ventana de contexto y gestión de la caché KV.
  • Inferencia por lotes y manejo de solicitudes paralelas.
  • Asignación de hilos de CPU y consciencia de NUMA.
  • Monitoreo de la utilización de GPU y presión de memoria.

Seguridad y Cumplimiento

  • Aislamiento de red para puntos finales de servicio de modelos.
  • Filtrado de entradas y pipelines de moderación de salidas.
  • Registro de auditoría de indicaciones y completados.
  • Procedencia de modelos y verificación de hash.

Requerimientos

  • Administración intermedia de Linux y contenedores.
  • Comprensión de los modelos de aprendizaje automático y transformadores a un nivel alto.
  • Familiaridad con APIs REST y JSON.

Público Objetivo

  • Ingenieros de IA y desarrolladores que reemplazan APIs de LLM en la nube.
  • Organizaciones con sensibilidad de datos que impiden el uso de modelos en la nube.
  • Equipos de gobierno y defensa que requieren modelos de lenguaje desconectados de la red (air-gapped).
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas