Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción:
- Apache Spark en el ecosistema Hadoop
- Introducción breve a Python y Scala
Conceptos básicos (teoría):
- Arquitectura
- RDD
- Transformaciones y Acciones
- Etapa, Tarea, Dependencias
Uso del entorno de Databricks para comprender los conceptos básicos (taller práctico):
- Ejercicios con la API de RDD
- Funciones básicas de acción y transformación
- PairRDD
- Join
- Estrategias de almacenamiento en caché
- Ejercicios con la API de DataFrame
- SparkSQL
- DataFrame: select, filter, group, sort
- UDF (Función Definida por el Usuario)
- Exploración de la API de DataSet
- Streaming
Uso del entorno de AWS para comprender el despliegue (taller práctico):
- Conceptos básicos de AWS Glue
- Comprensión de las diferencias entre AWS EMR y AWS Glue
- Ejemplos de trabajos en ambos entornos
- Ventajas y desventajas de cada uno
Contenido adicional:
- Introducción a la orquestación con Apache Airflow
Requerimientos
Habilidades de programación (preferiblemente Python, Scala)
Conocimientos básicos de SQL
21 Horas
Testimonios (3)
Tener sesiones prácticas / asignaciones
Poornima Chenthamarakshan - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
1. Equilibrio adecuado entre conceptos de alto nivel y detalles técnicos. 2. Andras es muy conocedor de su enseñanza. 3. Ejercicio
Steven Wu - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
Aprende sobre el streaming de Spark, Databricks y AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
Traducción Automática