Contacta con nosotros

Temario del curso

Cada sesión tiene una duración de 2 horas

Día 1: Sesión 1: Visión general empresarial del porqué de la Inteligencia de Negocios con Big Data en el Gobierno

  • Casos de estudio del NIH y del Departamento de Energía (DoE)
  • Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras en torno al Análisis Predictivo con Big Data
  • Área de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
  • Interfaz de Big Data con datos heredados (legacy)
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de paneles de control (dashboards)
  • Gestión de fraudes
  • Generación de reglas comerciales y detección de fraude
  • Detección de amenazas y perfilado
  • Análisis de costo-beneficio para la implementación de Big Data

Día 1: Sesión 2: Introducción a Big Data - 1

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
  • Almacenes de datos (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
  • Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
  • Lote (Batch) – adecuado para análisis/no interactivo
  • Volumen: datos en streaming de CEP
  • Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
  • Menos listos para producción – Storm/S4
  • Bases de datos NoSQL – (columnares y clave-valor): las más adecuadas como complemento analítico al almacén de datos/base de datos

Día 1: Sesión 3: Introducción a Big Data - 2

Soluciones NoSQL

  • Almacenamiento KV (Clave-Valor) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Almacenamiento KV - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
  • Almacenamiento KV (Jerárquico) - GT.m, Cache
  • Almacenamiento KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
  • Almacenamiento de tuplas - Gigaspaces, Coord, Apache River
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Almacenamiento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Almacenamiento columnar ancho (Wide Columnar) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción al problema de limpieza de datos en Big Data

  • RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semi-estructurado, suficiente estructura para almacenar datos sin un esquema exacto antes de almacenarlos
  • Problemas de limpieza de datos

Día 1: Sesión 4: Introducción a Big Data - 3: Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO - Los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no bueno para exploración activa)
  • Datos SEMI-ESTRUCTURADOS – difíciles de manejar con soluciones tradicionales (DW/DB)
  • Almacenar datos en un almacén = ESFUERZO ENORME y estático incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware comercial – HADOOP
  • Hardware comercial (H/W) necesario para crear un clúster de Hadoop

Introducción a MapReduce /HDFS

  • MapReduce – distribución de cómputo en múltiples servidores
  • HDFS – hace que los datos estén disponibles localmente para el proceso de cómputo (con redundancia)
  • Datos – pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programar MapReduce = trabajar con Java (ventajas/desventajas), carga manual de datos en HDFS

Día 2: Sesión 1: Ecosistema de Big Data: Construcción de ETL de Big Data: universo de herramientas de Big Data: ¿cuál usar y cuándo?

  • Hadoop vs. otras soluciones NoSQL
  • Para acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos pero con restricciones impuestas (máx. 1 PB)
  • No bueno para análisis ad-hoc, bueno para registro, conteo, series temporales
  • Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume – datos en streaming (ej. datos de registro) hacia HDFS

Día 2: Sesión 2: Sistema de gestión de Big Data

  • Componentes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/naming
  • Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, cadena de margaritas (daisy chain)
  • Implementar, configurar, gestión de clústeres, actualización, etc. (sys admin): Ambari
  • En la nube: Whirr

Día 2: Sesión 3: Análisis predictivo en Inteligencia de Negocios - 1: Técnicas fundamentales y BI basado en aprendizaje automático:

  • Introducción al aprendizaje automático
  • Aprendizaje de técnicas de clasificación
  • Predicción Bayesiana: preparación del archivo de entrenamiento
  • Máquina de soporte vectorial (SVM)
  • KNN p-Tree Álgebra y minería vertical
  • Red neuronal
  • Problema de grandes variables en Big Data - Bosque aleatorio (RF)
  • Problema de automatización en Big Data – Bosque aleatorio en conjunto multmodelo
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto - Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahout

Día 2: Sesión 4: Ecosistema de análisis predictivo - 2: Problemas comunes de análisis predictivo en el gobierno

  • Análisis de información (Insight)
  • Análisis de visualización
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfilado de amenazas/fraudsters/proveedores
  • Motor de recomendaciones
  • Detección de patrones
  • Descubrimiento de reglas/escenarios – falla, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Análisis CRM
  • Análisis de redes
  • Análisis de texto
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Análisis en tiempo real

Día 3: Sesión 1: Análisis en tiempo real y escalable sobre Hadoop

  • Por qué fallan los algoritmos de análisis comunes en Hadoop/HDFS
  • Apache Hama – para cómputo distribuido sincrónico masivo (Bulk Synchronous)
  • Apache SPARK – para cómputo en clúster para análisis en tiempo real
  • CMU Graphics Lab2 – Enfoque asincrónico basado en grafos para cómputo distribuido
  • Enfoque basado en álgebra p-KNN de Treeminer para reducir el costo operativo de hardware

Día 3: Sesión 2: Herramientas para eDiscovery y Forense

  • eDiscovery sobre Big Data vs. datos heredados – una comparación de costos y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de un producto TAR (vMiner) para entender cómo funciona TAR para un descubrimiento más rápido
  • Indexación más rápida a través de HDFS – velocidad de los datos
  • Procesamiento de Lenguaje Natural (NLP) o procesamiento de lenguaje natural – varias técnicas y productos de código abierto
  • eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros

Día 3: Sesión 3: BI de Big Data para Ciberseguridad – Comprendiendo las vistas integrales de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas

  • Comprensión de los fundamentos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas de host
  • Infraestructura de red / gran tubería de datos / ETL de respuesta para análisis en tiempo real
  • Prescriptivo vs. predictivo – basado en reglas fijas vs. descubrimiento automático de reglas de amenaza a partir de metadatos

Día 3: Sesión 4: Big Data en el USDA: Aplicaciones en Agricultura

  • Introducción al IoT (Internet de las Cosas) para agricultura: Big Data basado en sensores y control
  • Introducción a la imagen satelital y sus aplicaciones en la agricultura
  • Integración de datos de sensores e imágenes para la fertilidad del suelo, recomendaciones de cultivo y pronósticos
  • Seguros agrícolas y Big Data
  • Pronóstico de pérdida de cultivos

Día 4: Sesión 1: Prevención de fraudes con BI de Big Data en el gobierno: Análisis de fraude:

  • Clasificación básica del análisis de fraude: basado en reglas vs. análisis predictivo
  • Aprendizaje supervisado vs. no supervisado para la detección de patrones de fraude
  • Fraude de proveedores/cobros excesivos por proyectos
  • Fraude en Medicare y Medicaid: técnicas de detección de fraude para el procesamiento de reclamos
  • Fraudes de reembolso de viajes
  • Fraudes de reembolsos del IRS
  • Se brindarán casos de estudio y demostraciones en vivo siempre que los datos estén disponibles.

Día 4: Sesión 2: Análisis de Redes Sociales: Recopilación y análisis de inteligencia

  • API de ETL de Big Data para extraer datos de redes sociales
  • Texto, imágenes, metadatos y video
  • Análisis de sentimiento de los feeds de redes sociales
  • Filtrado contextual y no contextual de feeds de redes sociales
  • Panel de control (Dashboard) de redes sociales para integrar diversas redes sociales
  • Perfilado automatizado de perfiles en redes sociales
  • Se brindará una demostración en vivo de cada análisis a través de la herramienta Treeminer.

Día 4: Sesión 3: Análisis de Big Data en procesamiento de imágenes y flujos de video

  • Técnicas de almacenamiento de imágenes en Big Data: solución de almacenamiento para datos que exceden petabytes
  • LTFS y LTO
  • GPFS-LTFS (Solución de almacenamiento en capas para datos de imagen grandes)
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Seguimiento de movimiento
  • Reconstrucción de imágenes 3D

Día 4: Sesión 4: Aplicaciones de Big Data en el NIH:

  • Áreas emergentes de bioinformática
  • Metagenómica y problemas de minería de Big Data
  • Análisis predictivo de Big Data para farmacogenómica, metabolómica y proteómica
  • Big Data en el proceso de genómica downstream
  • Aplicación de la analítica predictiva de Big Data en salud pública

Panel de control (Dashboard) de Big Data para acceso rápido a datos diversos y visualización:

  • Integración de la plataforma de aplicaciones existente con el Panel de control de Big Data
  • Gestión de Big Data
  • Caso de estudio del Panel de control de Big Data: Tableau y Pentaho
  • Uso de la aplicación de Big Data para impulsar servicios basados en ubicación en el gobierno
  • Sistema de rastreo y gestión

Día 5: Sesión 1: Cómo justificar la implementación de BI con Big Data dentro de una organización:

  • Definición del ROI para la implementación de Big Data
  • Casos de estudio sobre el ahorro de tiempo del analista para la recopilación y preparación de datos – aumento en la ganancia de productividad
  • Casos de estudio de ganancia de ingresos al ahorrar en costos de bases de datos con licencia
  • Ganancia de ingresos de servicios basados en ubicación
  • Ahorro por prevención de fraude
  • Un enfoque integrado de hojas de cálculo para calcular el gasto aprox. vs. ganancia de ingresos/ahorros de la implementación de Big Data.

Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredado por un sistema de Big Data:

  • Comprensión de la hoja de ruta práctica de migración de Big Data
  • ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, velocidad, variedad y veracidad de los datos?
  • ¿Cómo estimar el crecimiento de los datos?
  • Casos de estudio

Día 5: Sesión 4: Revisión de proveedores de Big Data y revisión de sus productos. Sesión de preguntas y respuestas:

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (parte de EMC)

Requerimientos

  • Conocimiento básico de las operaciones comerciales y los sistemas de datos en el gobierno dentro de su dominio
  • Comprensión básica de SQL/Oracle o bases de datos relacionales
  • Comprensión básica de Estadística (a nivel de hojas de cálculo)
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas