Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a los Modelos Multimodales Mistral
- Descripción general de Mistral Medium y capacidades multimodales.
- Modelos de OCR/documentos y casos de uso.
- Integración con ecosistemas de código abierto.
Pipelines de OCR y Visión
- Fundamentos de OCR con modelos Mistral.
- Preprocesamiento de imágenes y documentos escaneados.
- Extracción de texto estructurado a partir de imágenes.
Comprensión de Documentos
- Diseño de pipelines de PLN para documentos.
- Reconocimiento de entidades, resumen y clasificación.
- Vinculación entre texto y datos de visión.
Búsqueda y Aplicaciones de Conocimiento
- Sistemas de búsqueda texto-vision.
- Construcción de búsqueda semántica con salidas de OCR.
- Repositorios empresariales de documentos.
Aplicaciones Asistenciales e Interactivas
- Diseño de interfaces de usuario para asistentes multimodales.
- Aplicaciones de accesibilidad (por ejemplo, texto a partir de visión).
- Herramientas de productividad del mundo real.
Rendimiento y Optimización
- Escalado de pipelines multimodales.
- Optimización del rendimiento de inferencia.
- Evaluación de compensaciones entre precisión y eficiencia.
Casos de Estudio y Direcciones Futuras
- Aplicaciones industriales de la IA multimodal.
- Tendencias de investigación en OCR e IA para documentos.
- Consideraciones de IA responsable en tareas de texto-visión.
Resumen y Próximos Pasos
Requerimientos
- Comprensión de los conceptos de procesamiento de lenguaje natural (PLN).
- Experiencia con Python y marcos de aprendizaje automático (ML).
- Conocimientos básicos de visión por computadora.
Público Objetivo
- Equipos de producto.
- Investigadores de ML.
- Ingenieros de ML aplicados.
14 Horas