Contacta con nosotros

Temario del curso

Introducción a Apache Airflow

  • ¿Qué es la orquestación de flujos de trabajo?
  • Características clave y beneficios de Apache Airflow
  • Mejoras de Airflow 2.x y visión general del ecosistema

Arquitectura y conceptos fundamentales

  • Programador, servidor web y procesos de trabajadores
  • DAGs, tareas y operadores
  • Executores y backends (Local, Celery, Kubernetes)

Instalación y configuración

  • Instalación de Airflow en entornos locales y en la nube
  • Configuración de Airflow con diferentes executores
  • Configuración de bases de datos de metadatos y conexiones

Navegación por la interfaz de Airflow y CLI

  • Exploración de la interfaz web de Airflow
  • Supervisión de ejecuciones de DAGs, tareas y registros
  • Uso de la CLI de Airflow para administración

Autoración y gestión de DAGs

  • Creación de DAGs con la TaskFlow API
  • Uso de operadores, sensores y ganchos (hooks)
  • Gestión de dependencias y intervalos de programación

Integración de Airflow con datos y servicios en la nube

  • Conexión a bases de datos, APIs y colas de mensajes
  • Ejecución de flujos de trabajo ETL con Airflow
  • Integraciones en la nube: operadores de AWS, GCP y Azure

Supervisión y observabilidad

  • Registros de tareas y supervisión en tiempo real
  • Métricas con Prometheus y Grafana
  • Alertas y notificaciones con correo electrónico o Slack

Seguridad de Apache Airflow

  • Control de acceso basado en roles (RBAC)
  • Autenticación con LDAP, OAuth y SSO
  • Gestión de secretos con Vault y almacenes de secretos en la nube

Escalabilidad de Apache Airflow

  • Paralelismo, concurrencia y colas de tareas
  • Uso de CeleryExecutor y KubernetesExecutor
  • Despliegue de Airflow en Kubernetes con Helm

Mejores prácticas para producción

  • Control de versiones y CI/CD para DAGs
  • Pruebas y depuración de DAGs
  • Mantenimiento de la fiabilidad y el rendimiento a escala

Resolución de problemas y optimización

  • Depuración de DAGs y tareas fallidas
  • Optimización del rendimiento de DAGs
  • Errores comunes y cómo evitarlos

Resumen y próximos pasos

Requerimientos

  • Experiencia con programación en Python
  • Familiaridad con conceptos de ingeniería de datos o DevOps
  • Comprensión de ETL u orquestación de flujos de trabajo

Audiencia

  • Científicos de datos
  • Ingenieros de datos
  • Ingenieros de DevOps e infraestructura
  • Desarrolladores de software
 21 Horas

Número de participantes


Precio por participante

Testimonios (7)

Próximos cursos

Categorías Relacionadas