Streaming de Datos y Procesamiento en Tiempo Real
Visión General del Curso
Este curso ofrece una introducción práctica y estructurada al desarrollo de sistemas de transmisión de datos en tiempo real. Aborda conceptos fundamentales, patrones de arquitectura y herramientas industriales empleadas para procesar datos continuos a gran escala. Los participantes aprenderán a diseñar, implementar y optimizar pipelines de transmisión utilizando frameworks modernos. El curso avanza desde ideas fundamentales hasta aplicaciones prácticas, permitiendo a los estudiantes construir con confianza soluciones listas para producción en tiempo real.
Formato de la Capacitación
• Sesiones guiadas por un instructor con explicaciones dirigidas
• Recorridos conceptuales acompañados de ejemplos del mundo real
• Demostraciones prácticas y ejercicios de codificación
• Laboratorios progresivos alineados con los temas diarios
• Discusiones interactivas y sesiones de preguntas y respuestas
Objetivos del Curso
• Comprender los conceptos de transmisión de datos en tiempo real y la arquitectura de sistemas
• Diferenciar entre los modelos de procesamiento de datos por lotes y por transmisión
• Diseñar pipelines de transmisión escalables y tolerantes a fallas
• Trabajar con herramientas y frameworks distribuidos de transmisión
• Aplicar procesamiento basado en tiempo de evento, ventanas y operaciones con estado
• Construir y optimizar soluciones de datos en tiempo real para casos de uso empresarial
Temario del curso
Temario del Día 1
• Introducción a los conceptos de transmisión de datos
• Fundamentos del procesamiento por lotes versus en tiempo real
• Conceptos básicos de arquitectura dirigida por eventos
• Casos de uso comunes en la industria
• Visión general del ecosistema de transmisión
Día 2
• Patrones de diseño de arquitectura de transmisión
• Fundamentos de sistemas de mensajería distribuida
• Productores y consumidores
• Temas, particiones y flujo de datos
• Estrategias de ingestión de datos
Día 3
• Conceptos y frameworks de procesamiento de flujos
• Tiempo de evento versus tiempo de procesamiento
• Técnicas de ventanas y sus casos de uso
• Procesamiento de flujos con estado
• Tolerancia a fallas y conceptos básicos de checkpointing
Día 4
• Transformación de datos en pipelines de transmisión
• ETL y ELT en sistemas en tiempo real
• Gestión y evolución del esquema
• Uniones de flujos y enriquecimiento de datos
• Introducción a servicios de transmisión basados en la nube
Día 5
• Monitoreo y observabilidad en sistemas de transmisión
• Conceptos básicos de seguridad y control de acceso
• Ajuste y optimización del rendimiento
• Revisión del diseño de pipelines de extremo a extremo
• Casos de uso del mundo real, como detección de fraudes y procesamiento de IoT
Los cursos públicos requieren más de 5 participantes.
Streaming de Datos y Procesamiento en Tiempo Real - Reserva
Streaming de Datos y Procesamiento en Tiempo Real - Consulta
Streaming de Datos y Procesamiento en Tiempo Real - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Apache Iceberg Avanzado
21 HorasEsta formación en vivo con instructor en Costa Rica (en línea o presencial) está dirigida a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos e implementar soluciones robustas de lakehouse que puedan manejar las complejidades de las aplicaciones modernas de big data.
Al finalizar esta formación, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluida la gestión de metadatos y la disposición de archivos.
- Configurar Iceberg para un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Administrar tablas Iceberg a gran escala, realizar cambios complejos de esquema y gestionar la evolución de las particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia del escaneo de datos en conjuntos de datos grandes.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar las garantías transaccionales y manejar fallos en entornos distribuidos.
Fundamentos de Apache Iceberg
14 HorasEsta formación en vivo con instructores en Costa Rica (en línea o presencial) está dirigida a profesionales de datos de nivel principiante que desean adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de trabajo de procesamiento de datos.
Al finalizar esta formación, los participantes podrán:
- Comprender en profundidad la arquitectura, las características y los beneficios de Apache Iceberg.
- Conocer los formatos de tabla, la partición, la evolución del esquema y las capacidades de viaje en el tiempo (time travel).
- Instalar y configurar Apache Iceberg en diferentes entornos.
- Crear, gestionar y manipular tablas Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla hacia Iceberg.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta capacitación en vivo con instructor en Costa Rica (en línea o presencial) está dirigida a científicos de datos e ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al finalizar esta capacitación, los participantes serán capaces de:
- Configurar un entorno de big data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de forma eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Inteligencia de Negocios de Big Data para Agencias del Gobierno
35 HorasLos avances tecnológicos y el aumento exponencial de la información están transformando la forma en que se realizan los negocios en muchas industrias, incluido el gobierno. Las tasas de generación de datos gubernamentales y de archivo digital están en aumento debido al rápido crecimiento de los dispositivos y aplicaciones móviles, los sensores y dispositivos inteligentes, las soluciones de computación en la nube y los portales dirigidos a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión, procesamiento, almacenamiento, seguridad y eliminación de la información también se vuelven más complejos. Nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información valiosa a partir de sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, dando cuenta de que la información es un activo estratégico, y el gobierno necesita proteger, aprovechar y analizar tanto la información estructurada como la no estructurada para servir mejor y cumplir con los requisitos de la misión. Mientras los líderes gubernamentales se esfuerzan por evolucionar hacia organizaciones impulsadas por datos para lograr exitosamente sus misiones, están sentando las bases para correlacionar las dependencias entre eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de una combinación de las tecnologías más disruptivas:
- Dispositivos y aplicaciones móviles
- Servicios en la nube
- Tecnologías de negocios sociales y redes
- Big Data y análisis
Big Data es una de las soluciones industriales inteligentes que permite al gobierno tomar mejores decisiones al actuar basándose en patrones revelados mediante el análisis de grandes volúmenes de datos, relacionados y no relacionados, estructurados y no estructurados.
Pero lograr estas hazañas requiere mucho más que simplemente acumular cantidades masivas de datos. «Dar sentido a estos volúmenes de Big Data requiere herramientas y tecnologías de vanguardia capaces de analizar y extraer conocimiento útil de corrientes vastas y diversas de información», escribieron Tom Kalil y Fen Zhao de la Oficina de Política de Ciencia y Tecnología de la Casa Blanca en una publicación en el Blog de OSTP.
La Casa Blanca dio un paso hacia la ayuda a las agencias para encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Big Data en 2012. La iniciativa incluyó más de 200 millones de dólares para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarlo.
Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. Almacenar los datos de manera eficiente es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el costo por megabyte del almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlos cuando lo deseen y cómo los necesiten. La copia de seguridad de cantidades masivas de datos intensifica el desafío.
Analizar los datos de manera efectiva es otro desafío importante. Muchas agencias utilizan herramientas comerciales que les permiten tamizar las montañas de datos, identificando tendencias que pueden ayudarles a operar con mayor eficiencia. (Un reciente estudio de MeriTalk encontró que los ejecutivos de TI federales creen que Big Data podría ayudar a las agencias a ahorrar más de 500 mil millones de dólares mientras también cumplen con los objetivos de la misión).
Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto su sistema de análisis de datos Piranha a disposición de otras agencias. El sistema ha ayudado a investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre aneurismas aórticos antes de que ocurran. También se utiliza para tareas más rutinarias, como tamizar currículums para conectar a los candidatos con los gerentes de contratación.
Una Introducción Práctica al Análisis de Datos y Big Data - 3 Días
21 HorasLos participantes que completen este entrenamiento en vivo y dirigido por un instructor en Costa Rica adquirirán una comprensión práctica y del mundo real sobre Big Data y sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de poner en práctica este conocimiento a través de ejercicios prácticos. La interacción grupal y la retroalimentación del instructor son componentes importantes de la clase.
El curso comienza con una introducción a los conceptos elementales de Big Data, luego avanza hacia los lenguajes de programación y las metodologías utilizadas para realizar Análisis de Datos. Finalmente, discutimos las herramientas e infraestructura que permiten el almacenamiento de Big Data, el Procesamiento Distribuido y la Escalabilidad.
Big Data y Análisis Avanzado
42 HorasBig Data y Análisis Avanzado es la aplicación de técnicas y herramientas sofisticadas para analizar conjuntos de datos grandes y complejos con el fin de obtener información útil y tomar decisiones estratégicas.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a profesionales de datos de nivel avanzado que desean aprovechar métodos analíticos de vanguardia y tecnologías de big data para el análisis predictivo, prescriptivo y en tiempo real.
Al finalizar esta formación, los participantes podrán:
- Diseñar e implementar canales de procesamiento de datos a gran escala para datos estructurados y no estructurados.
- Aplicar técnicas avanzadas de aprendizaje automático (machine learning) y aprendizaje profundo (deep learning) a conjuntos de datos masivos.
- Aprovechar marcos de computación distribuida para análisis en tiempo real y transmisión de datos.
- Integrar el análisis de big data en sistemas de inteligencia empresarial y toma de decisiones.
Formato del curso
- Conferencia y discusión interactivas.
- Muchas ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.
Apache NiFi para administradores
21 HorasApache NiFi es una plataforma de integración de datos y procesamiento de eventos basada en flujos y de código abierto. Permite el enrutamiento automático en tiempo real, la transformación y la mediación de sistemas entre sistemas dispares, con una interfaz de usuario basada en la web y un control fino.
Esta formación en vivo, impartida por un instructor (en sitio o remota), está dirigida a administradores e ingenieros de nivel intermedio que deseen implementar, gestionar, asegurar y optimizar los flujos de datos de NiFi en entornos de producción.
Al final de esta formación, los participantes podrán:
- Instalar, configurar y mantener clústeres de Apache NiFi.
- Diseñar y gestionar flujos de datos desde diversas fuentes y destinos.
- Implementar automatización de flujos, lógica de enrutamiento y transformación.
- Optimizar el rendimiento, supervisar las operaciones y solucionar problemas.
Formato del curso
- Conferencia interactiva con discusión sobre arquitecturas del mundo real.
- Laboratorios prácticos: construcción, implementación y gestión de flujos.
- Ejercicios basados en escenarios en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinar los detalles.
PySpark y Aprendizaje Automático
21 HorasEsta capacitación ofrece una introducción práctica para construir flujos de trabajo escalables de procesamiento de datos y Aprendizaje Automático utilizando PySpark. Los participantes aprenderán cómo Apache Spark opera dentro de los ecosistemas modernos de Big Data y cómo procesar eficientemente grandes conjuntos de datos aplicando principios de computación distribuida.
Fundamentos de Apache Spark
21 HorasEsta capacitación en vivo dirigida por un instructor en <ubicación> (en línea o presencial) está orientada a ingenieros que deseen configurar e implementar un sistema Apache Spark para procesar grandes cantidades de datos.
Al finalizar esta capacitación, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar conjuntos de datos muy grandes de manera rápida.
- Comprender las diferencias entre Apache Spark y Hadoop MapReduce, y saber cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en vivo con instructores en Costa Rica (en línea o presencial) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al finalizar esta formación, los participantes podrán:
- Instalar y configurar Apache Spark en diversos entornos.
- Gestionar los recursos del clúster y monitorear las aplicaciones de Spark.
- Optimizar el rendimiento de los clústeres de Spark.
- Implementar medidas de seguridad y garantizar alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark es lenta al principio, y se requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar esa primera etapa difícil. Tras completar este curso, los participantes comprenderán los conceptos básicos de Apache Spark, sabrán diferenciar claramente entre RDD y DataFrame, aprenderán a usar las API de Python y Scala, entenderán el funcionamiento de los executores y las tareas, entre otros aspectos. Además, siguiendo las mejores prácticas, este curso se centra intensamente en la implementación en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los últimos servicios de Spark disponibles en AWS.
DIRIGIDO A:
Ingenieros de Datos, Profesionales de DevOps, Científicos de Datos
Python y Spark para Big Data (PySpark)
21 HorasEn esta formación en vivo con instructor en Costa Rica, los participantes aprenderán cómo usar Python y Spark juntos para analizar grandes datos, mientras realizan ejercicios prácticos.
Al final de esta capacitación, los participantes serán capaces de:
- Aprender a utilizar Spark con Python para analizar grandes datos.
- Trabajar en ejercicios que imitan casos del mundo real.
- Utilizar distintas herramientas y técnicas para el análisis de grandes datos usando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación en vivo, impartida por un instructor en Costa Rica (en línea o presencial), está dirigida a desarrolladores que desean utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al finalizar esta formación, los participantes serán capaces de:
- Configurar el entorno necesario para comenzar a procesar grandes volúmenes de datos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprender a integrar Spark, Hadoop y Python para el procesamiento de grandes datos.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo, similares a los utilizados por Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, IA y gobernanza en una única solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformación y análisis avanzado en entornos empresariales.
Esta formación en vivo con instructor (en línea o presencial) está dirigida a profesionales de datos de nivel intermedio que deseen utilizar los módulos Rocket e Intelligence de Stratio de manera efectiva con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta formación, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Conferencia interactiva y discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para organizarlo.