Contacta con nosotros

Temario del curso

Introducción a los Modelos Multimodales Mistral

  • Descripción general de Mistral Medium y capacidades multimodales.
  • Modelos de OCR/documentos y casos de uso.
  • Integración con ecosistemas de código abierto.

Pipelines de OCR y Visión

  • Fundamentos de OCR con modelos Mistral.
  • Preprocesamiento de imágenes y documentos escaneados.
  • Extracción de texto estructurado a partir de imágenes.

Comprensión de Documentos

  • Diseño de pipelines de PLN para documentos.
  • Reconocimiento de entidades, resumen y clasificación.
  • Vinculación entre texto y datos de visión.

Búsqueda y Aplicaciones de Conocimiento

  • Sistemas de búsqueda texto-vision.
  • Construcción de búsqueda semántica con salidas de OCR.
  • Repositorios empresariales de documentos.

Aplicaciones Asistenciales e Interactivas

  • Diseño de interfaces de usuario para asistentes multimodales.
  • Aplicaciones de accesibilidad (por ejemplo, texto a partir de visión).
  • Herramientas de productividad del mundo real.

Rendimiento y Optimización

  • Escalado de pipelines multimodales.
  • Optimización del rendimiento de inferencia.
  • Evaluación de compensaciones entre precisión y eficiencia.

Casos de Estudio y Direcciones Futuras

  • Aplicaciones industriales de la IA multimodal.
  • Tendencias de investigación en OCR e IA para documentos.
  • Consideraciones de IA responsable en tareas de texto-visión.

Resumen y Próximos Pasos

Requerimientos

  • Comprensión de los conceptos de procesamiento de lenguaje natural (PLN).
  • Experiencia con Python y marcos de aprendizaje automático (ML).
  • Conocimientos básicos de visión por computadora.

Público Objetivo

  • Equipos de producto.
  • Investigadores de ML.
  • Ingenieros de ML aplicados.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas