Streaming de Datos y Procesamiento de Datos en Tiempo Real
Descripción del Curso
Este curso ofrece una introducción práctica y estructurada al desarrollo de sistemas de streaming de datos en tiempo real. Cubre conceptos fundamentales, patrones de arquitectura y herramientas de la industria utilizadas para procesar datos continuos a gran escala. Los participantes aprenderán a diseñar, implementar y optimizar pipelines de streaming mediante frameworks modernos. El curso avanza desde conceptos básicos hasta aplicaciones prácticas, permitiendo a los alumnos construir con confianza soluciones listas para entornos de producción.
Formato de la Capacitación
• Sesiones dirigidas por instructores con explicaciones guiadas
• Recorridos conceptuales con ejemplos del mundo real
• Demostraciones prácticas y ejercicios de codificación
• Laboratorios progresivos alineados con los temas diarios
• Discusiones interactivas y sesiones de preguntas y respuestas
Objetivos del Curso
• Comprender los conceptos de streaming de datos en tiempo real y la arquitectura de sistemas
• Diferenciar entre los modelos de procesamiento de datos por lotes y en streaming
• Diseñar pipelines de streaming escalables y tolerantes a fallos
• Trabajar con herramientas y frameworks de streaming distribuido
• Aplicar procesamiento basado en el tiempo del evento, ventanas y operaciones con estado
• Desarrollar y optimizar soluciones de datos en tiempo real para casos de uso empresarial
Temario del curso
Temario del Curso - Día 1
• Introducción a los conceptos de streaming de datos
• Fundamentos del procesamiento por lotes frente al en tiempo real
• Bases de la arquitectura impulsada por eventos
• Casos de uso comunes en la industria
• Panorama del ecosistema de streaming
Día 2
• Patrones de diseño de arquitectura de streaming
• Fundamentos de los sistemas de mensajería distribuida
• Productores y consumidores
• Temas, particiones y flujo de datos
• Estrategias de ingestión de datos
Día 3
• Conceptos y frameworks de procesamiento de flujos
• Tiempo del evento frente al tiempo de procesamiento
• Técnicas de ventanas y sus casos de uso
• Procesamiento de flujos con estado
• Fundamentos de tolerancia a fallos y checkpointing
Día 4
• Transformación de datos en pipelines de streaming
• ETL y ELT en sistemas en tiempo real
• Gestión y evolución de esquemas
• Uniones de flujos y enriquecimiento de datos
• Introducción a servicios de streaming basados en la nube
Día 5
• Monitoreo y observabilidad en sistemas de streaming
• Fundamentos de seguridad y control de acceso
• Optimización y ajuste de rendimiento
• Revisión del diseño de pipelines de extremo a extremo
• Casos de uso del mundo real, como detección de fraude y procesamiento de IoT
Los cursos públicos requieren más de 5 participantes.
Streaming de Datos y Procesamiento de Datos en Tiempo Real - Reserva
Streaming de Datos y Procesamiento de Datos en Tiempo Real - Consulta
Streaming de Datos y Procesamiento de Datos en Tiempo Real - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Capacitación de Administrador para Apache Hadoop
35 HorasAudiencia:
El curso está dirigido a especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en un entorno de sistema distribuido
Gol:
Conocimiento profundo sobre administración de clúster de Hadoop.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEste entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
- Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
- Visualizar grandes volúmenes de datos en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Análisis de Big Data en Salud
21 HorasEl análisis de big data implica el proceso de examinar grandes cantidades de conjuntos de datos variados para descubrir correlaciones, patrones ocultos y otros insights útiles.
La industria de la salud cuenta con enormes cantidades de datos médicos y clínicos complejos e heterogéneos. Aplicar técnicas de análisis de big data a los datos de salud presenta un gran potencial para derivar insights que mejoren la entrega de servicios de atención médica. Sin embargo, la inmensidad de estos conjuntos de datos plantea grandes desafíos en el análisis y las aplicaciones prácticas en un entorno clínico.
En este entrenamiento guiado por un instructor (remoto), los participantes aprenderán cómo realizar el análisis de big data en salud a través de una serie de ejercicios prácticos en vivo.
Al finalizar este entrenamiento, los participantes podrán:
- Instalar y configurar herramientas de análisis de big data como Hadoop MapReduce y Spark
- Comprender las características de los datos médicos
- Aplicar técnicas de big data para manejar datos médicos
- Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud
Audiencia
- Desarrolladores
- Científicos de Datos
Formato del Curso
- Parte exposición, parte discusión, ejercicios y mucha práctica hands-on.
Nota
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para arreglarlo.
Hadoop para administradores
21 HorasApache Hadoop es el marco de trabajo más popular para procesamiento Big Data en clusters de servidores. En este curso de tres (opcionalmente cuatro) días, los asistentes aprenderán sobre los beneficios comerciales y casos de uso para Hadoop y su ecosistema, cómo planificar la implementación y crecimiento del cluster, cómo instalar, mantener, monitorear, solucionar problemas y optimizar Hadoop. También practicarán el cargue masivo de datos en clusters, se familiarizarán con diversas distribuciones de Hadoop, y practicarán la instalación y administración de herramientas del ecosistema de Hadoop. El curso termina con una discusión sobre cómo asegurar el cluster mediante Kerberos.
“…Los materiales estaban muy bien preparados y cubrieron exhaustivamente. El Laboratorio fue muy útil y bien organizado”
— Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising
Audiencia
Administradores de Hadoop
Formato
Conferencias y laboratorios prácticos, aproximado equilibrio 60% conferencias, 40% laboratorio.
Hadoop para Desarrolladores (4 días)
28 HorasApache Hadoop es el marco más popular para procesar Big Data en clústeres de servidores. Este curso introducirá a los desarrolladores a varios componentes del ecosistema Hadoop (HDFS, MapReduce, Pig, Hive y HBase).
Hadoop Avanzado para Desarrolladores
21 HorasApache Hadoop es uno de los frameworks más populares para el procesamiento de Big Data en clústeres de servidores. Este curso se adentra en la gestión de datos en HDFS, Pig avanzado, Hive y HBase. Estas técnicas de programación avanzadas serán beneficiosas para desarrolladores experimentados en Hadoop.
Audiencia: desarrolladores
Duración: tres días
Formato: conferencias (50%) y laboratorios prácticos (50%).
Administración de Hadoop en MapR
28 HorasPúblico objetivo:
Este curso está diseñado para desentrañar la tecnología de big data/hadoop y mostrar que no es difícil de entender.
Hadoop y Spark para Administradores
35 HorasEsta capacitación en vivo dirigida por un instructor en Costa Rica (en línea o presencial) está dirigida a administradores de sistemas que desean aprender a configurar, implementar y administrar Hadoop clústeres dentro de su organización.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Apache Hadoop.
- Comprenda los cuatro componentes principales del ecosistema Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilice Hadoop Sistema de archivos distribuido (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configure HDFS para que funcione como motor de almacenamiento para implementaciones de Spark locales.
- Configure Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3, y NoSQL sistemas de bases de datos como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Lleve a cabo tareas administrativas como el aprovisionamiento, la gestión, la supervisión y la seguridad de un clúster Apache Hadoop.
HBase para Desarrolladores
21 HorasEste curso introduce HBase - un almacén NoSQL en la parte superior de Hadoop. El curso está dirigido a desarrolladores que usarán HBase para desarrollar aplicaciones y administradores que administrarán los clústeres de HBase.
Vamos a recorrer un desarrollador a través de la arquitectura de HBase y modelado de datos y desarrollo de aplicaciones en HBase. También discutirá el uso de MapReduce con HBase y algunos temas de administración relacionados con la optimización del rendimiento. El curso es muy práctico con muchos ejercicios de laboratorio.
Apache NiFi para administradores
21 HorasApache NiFi (Hortonworks DataFlow) es una plataforma de procesamiento de eventos y logística de datos integrada en tiempo real que permite mover, rastrear y automatizar los datos entre los sistemas. Está escrito usando programación basada en flujo y proporciona una interfaz de usuario basada en web para administrar flujos de datos en tiempo real.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Apachi NiFi
- Fuente, transformar y gestionar datos de fuentes de datos dispersas y distribuidas, incluidas bases de datos y lagos de datos grandes.
- Automatice los flujos de datos
- Habilitar análisis de transmisión
- Aplicar varios enfoques para la ingestión de datos
- Transformar Big Data y en conocimientos empresariales
Audiencia
- Administradores del sistema
- Ingenieros de datos
- Desarrolladores
- DevOps
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica
Apache NiFi para desarrolladores
7 HorasEn esta capacitación en vivo dirigida por un instructor en Costa Rica, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
- Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrolle extensiones utilizando NiFi y API de terceros.
- Desarrollar a medida su propio procesador Apache Nifi.
- Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Costa Rica, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Costa Rica (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.