Contacta con nosotros

Temario del curso

  • Introducción
    • Historia y conceptos de Hadoop
    • Ecosistema
    • Distribuciones
    • Arquitectura de alto nivel
    • Mitos de Hadoop
    • Desafíos de Hadoop (hardware / software)
    • Laboratorios: discutir tus proyectos y problemas de Big Data
  • Planificación e instalación
    • Selección de software y distribuciones de Hadoop
    • Dimensionamiento del clúster y planificación del crecimiento
    • Selección de hardware y red
    • Topología de racks
    • Instalación
    • Multitenencia
    • Estructura de directorios y registros
    • Pruebas de rendimiento
    • Laboratorios: instalación del clúster y ejecución de pruebas de rendimiento
  • Operaciones de HDFS
    • Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
    • Nodos y demonios (NameNode, Secondary NameNode, NameNode de espera en HA, DataNode)
    • Monitoreo de salud
    • Administración mediante línea de comandos y navegador
    • Agregar almacenamiento y reemplazar discos defectuosos
    • Laboratorios: familiarización con las líneas de comandos de HDFS
  • Ingestión de datos
    • Flume para registro y otra ingestión de datos en HDFS
    • Sqoop para importar desde bases de datos SQL a HDFS, así como para exportar de vuelta a SQL
    • Almacenamiento de datos de Hadoop con Hive
    • Copia de datos entre clústeres (distcp)
    • Uso de S3 como complemento a HDFS
    • Mejores prácticas y arquitecturas de ingestión de datos
    • Laboratorios: configuración y uso de Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
    • Computación paralela antes de MapReduce: comparar HPC vs administración de Hadoop
    • Cargas del clúster MapReduce
    • Nodos y demonios (JobTracker, TaskTracker)
    • Recorrido por la interfaz de usuario de MapReduce
    • Configuración de MapReduce
    • Configuración de trabajos
    • Optimización de MapReduce
    • Protección de MR: qué decir a tus programadores
    • Laboratorios: ejecución de ejemplos de MapReduce
  • YARN: nueva arquitectura y nuevas capacidades
    • Objetivos de diseño e implementación de la arquitectura de YARN
    • Nuevos actores: ResourceManager, NodeManager, Application Master
    • Instalación de YARN
    • Programación de trabajos bajo YARN
    • Laboratorios: investigación de la programación de trabajos
  • Temas avanzados
    • Monitoreo de hardware
    • Monitoreo del clúster
    • Adición y eliminación de servidores, actualización de Hadoop
    • Planificación de copias de seguridad, recuperación y continuidad del negocio
    • Flujos de trabajo de trabajos Oozie
    • Alta disponibilidad (HA) de Hadoop
    • Federación de Hadoop
    • Aseguramiento de tu clúster con Kerberos
    • Laboratorios: configuración del monitoreo
  • Tópicos opcionales
    • Cloudera Manager para administración del clúster, monitoreo y tareas rutinarias; instalación, uso. En este tópico, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
    • Ambari para administración del clúster, monitoreo y tareas rutinarias; instalación, uso. En este tópico, todos los ejercicios y laboratorios se realizan dentro del gestor de clústeres Ambari y Hortonworks Data Platform (HDP 2.0)

Requerimientos

  • comodidad con la administración básica del sistema Linux
  • conocimientos básicos de scripting

No se requiere conocimiento previo de Hadoop y computación distribuida, pero se introducirá y explicará durante el curso.

Entorno del laboratorio

Cero instalación: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Putty)
  • un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
 21 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas