Contacta con nosotros

Temario del curso

Introducción a la IA Multimodal

  • ¿Qué es la IA multimodal?
  • Desafíos clave y aplicaciones
  • Resumen de los principales modelos multimodales

Procesamiento de Texto y Comprensión del Lenguaje Natural

  • Aprovechamiento de LLM para agentes de IA basados en texto
  • Comprensión de la ingeniería de instrucciones para tareas multimodales
  • Ajuste fino de modelos de texto para aplicaciones específicas del dominio

Reconocimiento y Generación de Imágenes

  • Procesamiento de imágenes con IA: clasificación, etiquetado y detección de objetos
  • Generación de imágenes con modelos de difusión (Stable Diffusion, DALLE)
  • Integración de datos de imágenes con modelos basados en texto

Procesamiento de Voz y Audio

  • Reconocimiento de voz con Whisper ASR
  • Técnicas de síntesis de voz a texto (TTS)
  • Mejora de la interacción con usuarios mediante IA basada en voz

Integración de Entradas Multimodales

  • Construcción de canalizaciones de IA para procesar múltiples tipos de entrada
  • Técnicas de fusión para combinar datos de texto, imagen y voz
  • Aplicaciones del mundo real de agentes de IA multimodal

Implementación de Agentes de IA Multimodal

  • Construcción de soluciones de IA multimodal impulsadas por APIs
  • Optimización de modelos para rendimiento y escalabilidad
  • Mejores prácticas para implementar IA multimodal en entornos de producción

Consideraciones Éticas y Tendencias Futuras

  • Sesgo y equidad en la IA multimodal
  • Preocupaciones de privacidad con datos multimodales
  • Desarrollos futuros en IA multimodal

Resumen y Próximos Pasos

Requerimientos

  • Comprender los fundamentos del aprendizaje automático
  • Experiencia con programación en Python
  • Familiaridad con marcos de aprendizaje profundo (p. ej., TensorFlow, PyTorch)

Público objetivo

  • Desarrolladores de IA
  • Investigadores
  • Ingenieros multimedia
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas