Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a los Modelos Multimodales Mistral
- Descripción general de Mistral Medium y sus capacidades multimodales
- Modelos OCR/documento y casos de uso
- Integración con ecosistemas de código abierto
Pipelines de OCR y Visión
- Fundamentos de OCR con modelos Mistral
- Preprocesamiento de imágenes y documentos escaneados
- Extracción de texto estructurado de imágenes
Comprensión Documental
- Diseño de pipelines NLP para documentos
- Reconocimiento de entidades, resumen y clasificación
- Vinculación cruzada de datos de texto y visión
Aplicaciones de Búsqueda y Conocimiento
- Sistemas de búsqueda de visión-texto
- Construcción de búsqueda semántica con salidas OCR
- Repositorios de documentos empresariales
Aplicaciones Asistivas e Interactivas
- Diseño de UI para asistentes multimodales
- Aplicaciones de accesibilidad (por ejemplo, visión-a-texto)
- Herramientas de productividad en el mundo real
Rendimiento y Optimización
- Escala de pipelines multimodales
- Ajuste del rendimiento de inferencia
- Evaluación de compromisos entre precisión y eficiencia
Estudios de Caso y Direcciones Futuras
- Aplicaciones industriales de la IA multimodal
- Tendencias de investigación en OCR y documental AI
- Consideraciones de IA responsable en tareas de visión-texto
Resumen y Pasos Siguientes
Requerimientos
- Un conocimiento de los conceptos de procesamiento del lenguaje natural
- Experiencia con Python y marcos de ML
- Familiaridad con los fundamentos de la visión por computadora
Audiencia
- Equipos de productos
- Investigadores de ML
- Ingenieros de ML aplicados
14 Horas