Contacta con nosotros

Temario del curso

Introducción:

  • Apache Spark en el ecosistema Hadoop
  • Introducción breve a Python y Scala

Conceptos básicos (teoría):

  • Arquitectura
  • RDD
  • Transformaciones y Acciones
  • Etapa, Tarea, Dependencias

Uso del entorno de Databricks para comprender los conceptos básicos (taller práctico):

  • Ejercicios con la API de RDD
  • Funciones básicas de acción y transformación
  • PairRDD
  • Join
  • Estrategias de almacenamiento en caché
  • Ejercicios con la API de DataFrame
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Función Definida por el Usuario)
  • Exploración de la API de DataSet
  • Streaming

Uso del entorno de AWS para comprender el despliegue (taller práctico):

  • Conceptos básicos de AWS Glue
  • Comprensión de las diferencias entre AWS EMR y AWS Glue
  • Ejemplos de trabajos en ambos entornos
  • Ventajas y desventajas de cada uno

Contenido adicional:

  • Introducción a la orquestación con Apache Airflow

Requerimientos

Habilidades de programación (preferiblemente Python, Scala)

Conocimientos básicos de SQL

 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas