Contacta con nosotros

Temario del curso

Introducción, Objetivos y Estrategia de Migración

  • Objetivos del curso, alineación del perfil de los participantes y criterios de éxito.
  • Enfoques de migración de alto nivel y consideraciones de riesgo.
  • Configuración de espacios de trabajo, repositorios y conjuntos de datos para el laboratorio.

Día 1 — Fundamentos de Migración y Arquitectura

  • Conceptos de Lakehouse, descripción general de Delta Lake y arquitectura de Databricks.
  • Diferencias e implicaciones entre SMP (Single-Node Processing) y MPP (Massively Parallel Processing) para la migración.
  • Diseño Medallion (Bronce→Plata→Oro) y descripción general de Unity Catalog.

Laboratorio del Día 1 — Traduciendo un Procedimiento Almacenado

  • Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno (notebook).
  • Mapeo de tablas temporales y cursores a transformaciones de DataFrame.
  • Validación y comparación con la salida original.

Día 2 — Delta Lake Avanzado y Carga Incremental

  • Transacciones ACID, registros de confirmación, versionado y recorrido en el tiempo (time travel).
  • Auto Loader, patrones MERGE INTO, actualizaciones (upserts) y evolución del esquema.
  • OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento.

Laboratorio del Día 2 — Ingestión Incremental y Optimización

  • Implementación de ingestión con Auto Loader y flujos de trabajo MERGE.
  • Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados.
  • Medición de las mejoras en el rendimiento de lectura y escritura.

Día 3 — SQL en Databricks, Rendimiento y Depuración

  • Características de SQL analítico: funciones de ventana, funciones de orden superior y manejo de JSON/arreglos.
  • Interpretación de la interfaz de usuario de Spark, DAGs, shuffles, etapas, tareas y diagnóstico de cuellos de botella.
  • Patrones de ajuste de consultas: uniones de transmisión (broadcast joins), hints, almacenamiento en caché y reducción de volcado a disco (spill).

Laboratorio del Día 3 — Refactorización de SQL y Ajuste de Rendimiento

  • Refactorizar un proceso SQL intensivo en Spark SQL optimizado.
  • Uso de las trazas de Spark UI para identificar y corregir problemas de sesgo (skew) y shuffle.
  • Evaluación de rendimiento antes y después, y documentación de los pasos de ajuste.

Día 4 — PySpark Táctico: Reemplazando Lógica Procedural

  • Modelo de ejecución de Spark: controlador (driver), ejecutores, evaluación perezosa y estrategias de particionamiento.
  • Transformación de bucles y cursores en operaciones de DataFrame vectorizadas.
  • Modularización, UDFs / UDFs de pandas, widgets y bibliotecas reutilizables.

Laboratorio del Día 4 — Refactorización de Scripts Procedurales

  • Refactorizar un script ETL procedural en cuadernos PySpark modulares.
  • Introducción de parametrización, pruebas unitarias y funciones reutilizables.
  • Revisión de código y aplicación de lista de verificación de mejores prácticas.

Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas

  • Databricks Workflows: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores.
  • Diseño de pipelines Medallion incrementales con reglas de calidad y validación de esquema.
  • Integración con Git (GitHub/Azure DevOps), CI y estrategias de prueba para lógica PySpark.

Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo

  • Ensamblar el pipeline Bronce→Plata→Oro orquestado con Workflows.
  • Implementar registro (logging), auditoría, reintentos y validaciones automatizadas.
  • Ejecutar el pipeline completo, validar las salidas y preparar notas de implementación.

Operacionalización, Gobernanza y Preparación para Producción

  • Mejores prácticas de gobernanza, linaje y controles de acceso con Unity Catalog.
  • Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos.
  • Listas de verificación de implementación, estrategias de reversión y creación de manuales de operación.

Revisión Final, Transferencia de Conocimiento y Próximos Pasos

  • Presentaciones de los participantes sobre el trabajo de migración y lecciones aprendidas.
  • Análisis de brechas, actividades de seguimiento recomendadas y entrega de materiales de capacitación.
  • Referencias, rutas de aprendizaje adicionales y opciones de soporte.

Requerimientos

  • Comprensión de los conceptos de ingeniería de datos.
  • Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server).
  • Familiaridad con conceptos de orquestación ETL (ADF o similares).

Público Objetivo

  • Gerentes tecnológicos con antecedentes en ingeniería de datos.
  • Ingenieros de datos que transicionan lógica procedural OLAP a patrones Lakehouse.
  • Ingenieros de plataforma responsables de la adopción de Databricks.
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas