Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Soberanía de la IA y Despliegue Local de LLM
- Riesgos de los LLM en la nube: retención de datos, entrenamiento con entradas, jurisdicción extranjera.
- Arquitectura de Ollama: servidor de modelos, registro y API compatible con OpenAI.
- Comparación con vLLM, llama.cpp y Text Generation Inference.
- Licencias de modelos: términos de Llama, Mistral, Qwen y Gemma.
Instalación y Configuración de Hardware
- Instalación de Ollama en Linux con soporte para CUDA y ROCm.
- Alternativa solo con CPU y optimización de AVX/AVX2.
- Despliegue con Docker y mapeo de volúmenes persistentes.
- Configuración multi-GPU y estrategias de asignación de VRAM.
Gestión de Modelos
- Descarga de modelos desde el registro de Ollama: ollama pull llama3.
- Importación de modelos GGUF desde HuggingFace y TheBloke.
- Niveles de cuantización: compensaciones entre Q4_K_M, Q5_K_M y Q8_0.
- Cambios de modelo y límites de carga concurrente de modelos.
Modelfiles Personalizados
- Escritura de la sintaxis de Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ajuste de temperatura, top_p y repeat_penalty.
- Ingeniería de indicaciones del sistema para comportamiento específico por rol.
- Creación y publicación de modelos personalizados en el registro local.
Integración de API
- Endpoint /v1/chat/completions compatible con OpenAI.
- Respuestas en streaming y modo JSON.
- Integración con LangChain, LlamaIndex y aplicaciones personalizadas.
- Autenticación y limitación de tasa con proxy inverso.
Optimización del Rendimiento
- Tamaño de la ventana de contexto y gestión de la caché KV.
- Inferencia por lotes y manejo de solicitudes paralelas.
- Asignación de hilos de CPU y consciencia de NUMA.
- Monitoreo de la utilización de GPU y presión de memoria.
Seguridad y Cumplimiento
- Aislamiento de red para puntos finales de servicio de modelos.
- Filtrado de entradas y pipelines de moderación de salidas.
- Registro de auditoría de indicaciones y completados.
- Procedencia de modelos y verificación de hash.
Requerimientos
- Administración intermedia de Linux y contenedores.
- Comprensión de los modelos de aprendizaje automático y transformadores a un nivel alto.
- Familiaridad con APIs REST y JSON.
Público Objetivo
- Ingenieros de IA y desarrolladores que reemplazan APIs de LLM en la nube.
- Organizaciones con sensibilidad de datos que impiden el uso de modelos en la nube.
- Equipos de gobierno y defensa que requieren modelos de lenguaje desconectados de la red (air-gapped).
14 Horas