Contacta con nosotros

Temario del curso

Introducción a la IA multimodal y Ollama

  • Visión general del aprendizaje multimodal.
  • Desafíos clave en la integración de visión y lenguaje.
  • Capacidades y arquitectura de Ollama.

Configuración del entorno de Ollama

  • Instalación y configuración de Ollama.
  • Trabajo con implementación de modelos locales.
  • Integración de Ollama con Python y Jupyter.

Trabajo con entradas multimodales

  • Integración de texto e imágenes.
  • Incorporación de audio y datos estructurados.
  • Diseño de pipelines de preprocesamiento.

Aplicaciones de comprensión de documentos

  • Extracción de información estructurada de PDFs e imágenes.
  • Combinación de OCR con modelos de lenguaje.
  • Construcción de flujos de trabajo inteligentes de análisis de documentos.

Preguntas y respuestas visuales (VQA)

  • Configuración de conjuntos de datos y benchmarks de VQA.
  • Entrenamiento y evaluación de modelos multimodales.
  • Construcción de aplicaciones VQA interactivas.

Diseño de agentes multimodales

  • Principios de diseño de agentes con razonamiento multimodal.
  • Combinación de percepción, lenguaje y acción.
  • Despliegue de agentes para casos de uso del mundo real.

Integración y optimización avanzada

  • Ajuste fino de modelos multimodales con Ollama.
  • Optimización del rendimiento de inferencia.
  • Consideraciones de escalabilidad y despliegue.

Resumen y próximos pasos

Requerimientos

  • Comprensión sólida de los conceptos de aprendizaje automático.
  • Experiencia con frameworks de aprendizaje profundo como PyTorch o TensorFlow.
  • Familiaridad con el procesamiento del lenguaje natural y la visión por computadora.

Público objetivo

  • Ingenieros de aprendizaje automático.
  • Investigadores de IA.
  • Desarrolladores de productos que integran flujos de trabajo de visión y texto.
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas