Programa del Curso

Sección 1: Introducción a Hadoop

  • Historia de Hadoop, conceptos
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitos de Hadoop
  • Desafíos de Hadoop
  • Hardware / Software
  • Lab : Primer vistazo a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
  • Daemons : Nodo de nombre, Nodo de nombre secundario,Nodo de datos
  • Comunicaciones / Latidos del corazón
  • Integridad de los datos
  • Ruta de lectura/escritura
  • Alta disponibilidad (HA) de nodo de nombre, federación
  • labs : Interacción con HDFS

Sección 3 : Reducción de mapas

  • Conceptos y arquitectura
  • daemons (MRV1) : jobtracker / tasktracker
  • Fases : Controlador, Mapeador, Aleatorio/Ordenar, Reductor
  • Map Reduce Versión 1 y Versión 2 (YARN)
  • Aspectos internos de Map Reduce
  • Introducción al programa Java Map Reduce
  • labs : Ejecución de un programa MapReduce de ejemplo

Sección 4 : Cerdo

  • Pig vs Java Map Reduce
  • Flujo de trabajo porcino
  • Cerdo Idioma Latino
  • ETL con Pig
  • Transformaciones y uniones
  • Funciones definidas por el usuario (UDF)
  • labs : escribir scripts Pig para analizar datos

Sección 5: Hive

  • Arquitectura y diseño
  • Tipos de datos
  • SQL Soporte en Hive
  • Creación de tablas de Hive y consultas
  • Particiones
  • Une
  • Procesamiento de textos
  • labs : varios laboratorios sobre el procesamiento de datos con Hive

Sección 6: HBase

  • Conceptos yarquitectura
  • hbase vs RDBMS vs cassandra
  • HBase Java API
  • Datos de series temporales en HBase
  • Diseño de esquemas
  • labs : Interacción con HBase mediante shell; programación en la API de HBase Java; Ejercicio de diseño de esquemas

Requerimientos

  • cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • cómodo en el entorno Linux (ser capaz de navegar por la línea de comandos Linux, editar archivos usando vi / nano)

Entorno de laboratorio

Instalación cero: ¡ No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
  • Un explorador para acceder al clúster. Recomendamos el navegador Firefox
  28 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (4)

Cursos Relacionados

Categorías Relacionadas