Temario del curso
-
Introducción a Scala
- Una breve introducción a Scala
- Laboratorios: Conociendo Scala
-
Fundamentos de Spark
- Antecedentes e historia
- Spark y Hadoop
- Conceptos y arquitectura de Spark
- Ecosistema de Spark (núcleo, Spark SQL, MLlib, Streaming)
- Laboratorios: Instalación y ejecución de Spark
-
Primeras vistas de Spark
- Ejecución de Spark en modo local
- Interfaz web de Spark
- Shell de Spark
- Análisis de conjuntos de datos - Parte 1
- Inspección de RDDs
- Laboratorios: Exploración del Shell de Spark
-
RDDs
- Conceptos de RDDs
- Particiones
- Operaciones / transformaciones de RDDs
- Tipos de RDDs
- RDDs de pares clave-valor
- MapReduce en RDDs
- Almacenamiento en caché y persistencia
- Laboratorios: Creación e inspección de RDDs; Almacenamiento en caché de RDDs
-
Programación con API de Spark
- Introducción a la API de Spark / API de RDDs
- Envío del primer programa a Spark
- Depuración / registro de eventos (logging)
- Propiedades de configuración
- Laboratorios: Programación en la API de Spark, Envío de trabajos
-
Spark SQL
- Soporte de SQL en Spark
- DataFrames
- Definición de tablas e importación de conjuntos de datos
- Consulta de DataFrames utilizando SQL
- Formatos de almacenamiento: JSON / Parquet
- Laboratorios: Creación y consulta de DataFrames; evaluación de formatos de datos
-
MLlib
- Introducción a MLlib
- Algoritmos de MLlib
- Laboratorios: Escritura de aplicaciones con MLlib
-
GraphX
- Visión general de la biblioteca GraphX
- APIs de GraphX
- Laboratorios: Procesamiento de datos de grafos utilizando Spark
-
Spark Streaming
- Visión general del Streaming
- Evaluación de plataformas de Streaming
- Operaciones de Streaming
- Operaciones de ventanas deslizantes
- Laboratorios: Escritura de aplicaciones de Spark Streaming
-
Spark y Hadoop
- Introducción a Hadoop (HDFS / YARN)
- Arquitectura Hadoop + Spark
- Ejecución de Spark en Hadoop YARN
- Procesamiento de archivos HDFS utilizando Spark
-
Rendimiento y afinación de Spark
- Variables de difusión (Broadcast variables)
- Acumuladores
- Gestión de memoria y almacenamiento en caché
-
Operaciones de Spark
- Despliegue de Spark en producción
- Plantillas de despliegue de ejemplo
- Configuraciones
- Monitoreo
- Resolución de problemas
Requerimientos
PRERREQUISITOS
Conocimientos previos en al menos uno de los siguientes lenguajes: Java / Scala / Python (nuestros laboratorios se realizan en Scala y Python).
Comprensión básica del entorno de desarrollo en Linux (navegación por línea de comandos / edición de archivos utilizando VI o nano).
Testimonios (7)
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Realizar ejercicios similares de diferentes formas realmente ayuda a comprender lo que cada componente (Hadoop/Spark, standalone/cluster) puede hacer por sí solo y en conjunto. Me dio ideas sobre cómo debería probar mi aplicación en mi máquina local durante el desarrollo en comparación con cuando está desplegada en un clúster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Traducción Automática
Ajay fue muy amable, servicial y también conocedor del tema que estaba discutiendo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Traducción Automática
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Traducción Automática
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Traducción Automática
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Traducción Automática
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Traducción Automática