Temario del curso
Introducción, Objetivos y Estrategia de Migración
- Objetivos del curso, alineación del perfil de los participantes y criterios de éxito.
- Enfoques de migración de alto nivel y consideraciones de riesgo.
- Configuración de espacios de trabajo, repositorios y conjuntos de datos para el laboratorio.
Día 1 — Fundamentos de Migración y Arquitectura
- Conceptos de Lakehouse, descripción general de Delta Lake y arquitectura de Databricks.
- Diferencias e implicaciones entre SMP (Single-Node Processing) y MPP (Massively Parallel Processing) para la migración.
- Diseño Medallion (Bronce→Plata→Oro) y descripción general de Unity Catalog.
Laboratorio del Día 1 — Traduciendo un Procedimiento Almacenado
- Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno (notebook).
- Mapeo de tablas temporales y cursores a transformaciones de DataFrame.
- Validación y comparación con la salida original.
Día 2 — Delta Lake Avanzado y Carga Incremental
- Transacciones ACID, registros de confirmación, versionado y recorrido en el tiempo (time travel).
- Auto Loader, patrones MERGE INTO, actualizaciones (upserts) y evolución del esquema.
- OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento.
Laboratorio del Día 2 — Ingestión Incremental y Optimización
- Implementación de ingestión con Auto Loader y flujos de trabajo MERGE.
- Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados.
- Medición de las mejoras en el rendimiento de lectura y escritura.
Día 3 — SQL en Databricks, Rendimiento y Depuración
- Características de SQL analítico: funciones de ventana, funciones de orden superior y manejo de JSON/arreglos.
- Interpretación de la interfaz de usuario de Spark, DAGs, shuffles, etapas, tareas y diagnóstico de cuellos de botella.
- Patrones de ajuste de consultas: uniones de transmisión (broadcast joins), hints, almacenamiento en caché y reducción de volcado a disco (spill).
Laboratorio del Día 3 — Refactorización de SQL y Ajuste de Rendimiento
- Refactorizar un proceso SQL intensivo en Spark SQL optimizado.
- Uso de las trazas de Spark UI para identificar y corregir problemas de sesgo (skew) y shuffle.
- Evaluación de rendimiento antes y después, y documentación de los pasos de ajuste.
Día 4 — PySpark Táctico: Reemplazando Lógica Procedural
- Modelo de ejecución de Spark: controlador (driver), ejecutores, evaluación perezosa y estrategias de particionamiento.
- Transformación de bucles y cursores en operaciones de DataFrame vectorizadas.
- Modularización, UDFs / UDFs de pandas, widgets y bibliotecas reutilizables.
Laboratorio del Día 4 — Refactorización de Scripts Procedurales
- Refactorizar un script ETL procedural en cuadernos PySpark modulares.
- Introducción de parametrización, pruebas unitarias y funciones reutilizables.
- Revisión de código y aplicación de lista de verificación de mejores prácticas.
Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas
- Databricks Workflows: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores.
- Diseño de pipelines Medallion incrementales con reglas de calidad y validación de esquema.
- Integración con Git (GitHub/Azure DevOps), CI y estrategias de prueba para lógica PySpark.
Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo
- Ensamblar el pipeline Bronce→Plata→Oro orquestado con Workflows.
- Implementar registro (logging), auditoría, reintentos y validaciones automatizadas.
- Ejecutar el pipeline completo, validar las salidas y preparar notas de implementación.
Operacionalización, Gobernanza y Preparación para Producción
- Mejores prácticas de gobernanza, linaje y controles de acceso con Unity Catalog.
- Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos.
- Listas de verificación de implementación, estrategias de reversión y creación de manuales de operación.
Revisión Final, Transferencia de Conocimiento y Próximos Pasos
- Presentaciones de los participantes sobre el trabajo de migración y lecciones aprendidas.
- Análisis de brechas, actividades de seguimiento recomendadas y entrega de materiales de capacitación.
- Referencias, rutas de aprendizaje adicionales y opciones de soporte.
Requerimientos
- Comprensión de los conceptos de ingeniería de datos.
- Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server).
- Familiaridad con conceptos de orquestación ETL (ADF o similares).
Público Objetivo
- Gerentes tecnológicos con antecedentes en ingeniería de datos.
- Ingenieros de datos que transicionan lógica procedural OLAP a patrones Lakehouse.
- Ingenieros de plataforma responsables de la adopción de Databricks.
Testimonios (1)
Todos los temas que abarca, aunque muchos fueron muy rápidos, nos da una idea de lo que necesitaremos ahondar. Además me gustó que pudimos hacer practicas, aunque insisto, creo que el curso amerita mas.