Contacta con nosotros

Temario del curso

  1. Introducción a Scala

    • Una breve introducción a Scala
    • Laboratorios: Conociendo Scala
  2. Fundamentos de Spark

    • Antecedentes e historia
    • Spark y Hadoop
    • Conceptos y arquitectura de Spark
    • Ecosistema de Spark (núcleo, Spark SQL, MLlib, Streaming)
    • Laboratorios: Instalación y ejecución de Spark
  3. Primeras vistas de Spark

    • Ejecución de Spark en modo local
    • Interfaz web de Spark
    • Shell de Spark
    • Análisis de conjuntos de datos - Parte 1
    • Inspección de RDDs
    • Laboratorios: Exploración del Shell de Spark
  4. RDDs

    • Conceptos de RDDs
    • Particiones
    • Operaciones / transformaciones de RDDs
    • Tipos de RDDs
    • RDDs de pares clave-valor
    • MapReduce en RDDs
    • Almacenamiento en caché y persistencia
    • Laboratorios: Creación e inspección de RDDs; Almacenamiento en caché de RDDs
  5. Programación con API de Spark

    • Introducción a la API de Spark / API de RDDs
    • Envío del primer programa a Spark
    • Depuración / registro de eventos (logging)
    • Propiedades de configuración
    • Laboratorios: Programación en la API de Spark, Envío de trabajos
  6. Spark SQL

    • Soporte de SQL en Spark
    • DataFrames
    • Definición de tablas e importación de conjuntos de datos
    • Consulta de DataFrames utilizando SQL
    • Formatos de almacenamiento: JSON / Parquet
    • Laboratorios: Creación y consulta de DataFrames; evaluación de formatos de datos
  7. MLlib

    • Introducción a MLlib
    • Algoritmos de MLlib
    • Laboratorios: Escritura de aplicaciones con MLlib
  8. GraphX

    • Visión general de la biblioteca GraphX
    • APIs de GraphX
    • Laboratorios: Procesamiento de datos de grafos utilizando Spark
  9. Spark Streaming

    • Visión general del Streaming
    • Evaluación de plataformas de Streaming
    • Operaciones de Streaming
    • Operaciones de ventanas deslizantes
    • Laboratorios: Escritura de aplicaciones de Spark Streaming
  10. Spark y Hadoop

    • Introducción a Hadoop (HDFS / YARN)
    • Arquitectura Hadoop + Spark
    • Ejecución de Spark en Hadoop YARN
    • Procesamiento de archivos HDFS utilizando Spark
  11. Rendimiento y afinación de Spark

    • Variables de difusión (Broadcast variables)
    • Acumuladores
    • Gestión de memoria y almacenamiento en caché
  12. Operaciones de Spark

    • Despliegue de Spark en producción
    • Plantillas de despliegue de ejemplo
    • Configuraciones
    • Monitoreo
    • Resolución de problemas

Requerimientos

PRERREQUISITOS

Conocimientos previos en al menos uno de los siguientes lenguajes: Java / Scala / Python (nuestros laboratorios se realizan en Scala y Python).
Comprensión básica del entorno de desarrollo en Linux (navegación por línea de comandos / edición de archivos utilizando VI o nano).

 21 Horas

Número de participantes


Precio por participante

Testimonios (7)

Próximos cursos

Categorías Relacionadas