Temario del curso
-
Introducción a Scala
- Una rápida introducción a Scala
- Laboratorios: Conociendo Scala
-
Bases de Spark
- Fondo e historia
- Spark y Hadoop
- Conceptos y arquitectura de Spark
- Ecosistema de Spark (core, spark sql, mlib, streaming)
- Laboratorios: Instalación y ejecución de Spark
-
Primer vistazo a Spark
- Ejecución de Spark en modo local
- Interfaz web de Spark
- Shell de Spark
- Análisis de conjuntos de datos - parte 1
- Inspección de RDDs
- Laboratorios: Exploración de la shell de Spark
-
RDDs
- Conceptos de RDDs
- Particiones
- Operaciones y transformaciones en RDDs
- Tipos de RDDs
- RDDs de pares clave-valor
- MapReduce en RDDs
- Caché y persistencia
- Laboratorios: Creación e inspección de RDDs; Caché de RDDs
-
Programación con la API de Spark
- Introducción a la API de Spark / RDD API
- Envío del primer programa a Spark
- Depuración y registro
- Propiedades de configuración
- Laboratorios: Programación con la API de Spark, Envío de trabajos
-
Spark SQL
- Soporte SQL en Spark
- Dataframes
- Definición de tablas e importación de conjuntos de datos
- Consulta de dataframes usando SQL
- Formatos de almacenamiento: JSON / Parquet
- Laboratorios: Creación y consulta de dataframes; Evaluación de formatos de datos
-
MLlib
- Introducción a MLlib
- Algoritmos de MLlib
- Laboratorios: Escribir aplicaciones MLib
-
GraphX
- Visión general de la biblioteca GraphX
- APIs de GraphX
- Laboratorios: Procesamiento de datos de grafos usando Spark
-
Spark Streaming
- Visión general de streaming
- Evaluación de plataformas de streaming
- Operaciones de streaming
- Operaciones de ventanas deslizantes
- Laboratorios: Escribir aplicaciones de Spark Streaming
-
Spark y Hadoop
- Introducción a Hadoop (HDFS / YARN)
- Arquitectura de Hadoop + Spark
- Ejecución de Spark en Hadoop YARN
- Procesamiento de archivos HDFS usando Spark
-
Rendimiento y ajuste de Spark
- Variables de transmisión
- Acumuladores
- Gestión de memoria y caché
-
Operaciones de Spark
- Despliegue de Spark en producción
- Plantillas de despliegue de muestra
- Configuraciones
- Monitoreo
- Solución de problemas
Requerimientos
REQUISITOS PREVIOS
familiaridad con Java / Scala / Python (nuestros laboratorios en Scala y Python)
comprensión básica del entorno de desarrollo Linux (navegación por la línea de comandos / edición de archivos usando VI o nano)
Testimonios (7)
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Realizar ejercicios similares de diferentes maneras realmente ayuda a entender lo que cada componente (Hadoop/Spark, independiente/cluster) puede hacer por sí solo y en conjunto. Me dio ideas sobre cómo debería probar mi aplicación en mi máquina local cuando desarrollo versus cuando se implementa en un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Traducción Automática
Ajay fue muy amistoso, servicial y también conocedor sobre el tema que estaba discutiendo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Traducción Automática
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Traducción Automática
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Traducción Automática
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Traducción Automática
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Traducción Automática