Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Cada sesión tiene una duración de 2 horas
Día 1: Sesión 1: Visión general empresarial del porqué de la Inteligencia de Negocios con Big Data en el Gobierno
- Casos de estudio del NIH y del Departamento de Energía (DoE)
- Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras en torno al Análisis Predictivo con Big Data
- Área de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
- Interfaz de Big Data con datos heredados (legacy)
- Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
- Integración de datos y visualización de paneles de control (dashboards)
- Gestión de fraudes
- Generación de reglas comerciales y detección de fraude
- Detección de amenazas y perfilado
- Análisis de costo-beneficio para la implementación de Big Data
Día 1: Sesión 2: Introducción a Big Data - 1
- Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
- Almacenes de datos (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
- Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
- Lote (Batch) – adecuado para análisis/no interactivo
- Volumen: datos en streaming de CEP
- Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
- Menos listos para producción – Storm/S4
- Bases de datos NoSQL – (columnares y clave-valor): las más adecuadas como complemento analítico al almacén de datos/base de datos
Día 1: Sesión 3: Introducción a Big Data - 2
Soluciones NoSQL
- Almacenamiento KV (Clave-Valor) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Almacenamiento KV - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB
- Almacenamiento KV (Jerárquico) - GT.m, Cache
- Almacenamiento KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta
- Almacenamiento de tuplas - Gigaspaces, Coord, Apache River
- Base de datos de objetos - ZopeDB, DB40, Shoal
- Almacenamiento de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Almacenamiento columnar ancho (Wide Columnar) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción al problema de limpieza de datos en Big Data
- RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL – semi-estructurado, suficiente estructura para almacenar datos sin un esquema exacto antes de almacenarlos
- Problemas de limpieza de datos
Día 1: Sesión 4: Introducción a Big Data - 3: Hadoop
- ¿Cuándo seleccionar Hadoop?
- ESTRUCTURADO - Los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no bueno para exploración activa)
- Datos SEMI-ESTRUCTURADOS – difíciles de manejar con soluciones tradicionales (DW/DB)
- Almacenar datos en un almacén = ESFUERZO ENORME y estático incluso después de la implementación
- Para variedad y volumen de datos, procesados en hardware comercial – HADOOP
- Hardware comercial (H/W) necesario para crear un clúster de Hadoop
Introducción a MapReduce /HDFS
- MapReduce – distribución de cómputo en múltiples servidores
- HDFS – hace que los datos estén disponibles localmente para el proceso de cómputo (con redundancia)
- Datos – pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programar MapReduce = trabajar con Java (ventajas/desventajas), carga manual de datos en HDFS
Día 2: Sesión 1: Ecosistema de Big Data: Construcción de ETL de Big Data: universo de herramientas de Big Data: ¿cuál usar y cuándo?
- Hadoop vs. otras soluciones NoSQL
- Para acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos pero con restricciones impuestas (máx. 1 PB)
- No bueno para análisis ad-hoc, bueno para registro, conteo, series temporales
- Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume – datos en streaming (ej. datos de registro) hacia HDFS
Día 2: Sesión 2: Sistema de gestión de Big Data
- Componentes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/naming
- Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, cadena de margaritas (daisy chain)
- Implementar, configurar, gestión de clústeres, actualización, etc. (sys admin): Ambari
- En la nube: Whirr
Día 2: Sesión 3: Análisis predictivo en Inteligencia de Negocios - 1: Técnicas fundamentales y BI basado en aprendizaje automático:
- Introducción al aprendizaje automático
- Aprendizaje de técnicas de clasificación
- Predicción Bayesiana: preparación del archivo de entrenamiento
- Máquina de soporte vectorial (SVM)
- KNN p-Tree Álgebra y minería vertical
- Red neuronal
- Problema de grandes variables en Big Data - Bosque aleatorio (RF)
- Problema de automatización en Big Data – Bosque aleatorio en conjunto multmodelo
- Automatización a través de Soft10-M
- Herramienta de análisis de texto - Treeminer
- Aprendizaje ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahout
Día 2: Sesión 4: Ecosistema de análisis predictivo - 2: Problemas comunes de análisis predictivo en el gobierno
- Análisis de información (Insight)
- Análisis de visualización
- Análisis predictivo estructurado
- Análisis predictivo no estructurado
- Perfilado de amenazas/fraudsters/proveedores
- Motor de recomendaciones
- Detección de patrones
- Descubrimiento de reglas/escenarios – falla, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de sentimiento
- Análisis CRM
- Análisis de redes
- Análisis de texto
- Revisión asistida por tecnología
- Análisis de fraude
- Análisis en tiempo real
Día 3: Sesión 1: Análisis en tiempo real y escalable sobre Hadoop
- Por qué fallan los algoritmos de análisis comunes en Hadoop/HDFS
- Apache Hama – para cómputo distribuido sincrónico masivo (Bulk Synchronous)
- Apache SPARK – para cómputo en clúster para análisis en tiempo real
- CMU Graphics Lab2 – Enfoque asincrónico basado en grafos para cómputo distribuido
- Enfoque basado en álgebra p-KNN de Treeminer para reducir el costo operativo de hardware
Día 3: Sesión 2: Herramientas para eDiscovery y Forense
- eDiscovery sobre Big Data vs. datos heredados – una comparación de costos y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demostración en vivo de un producto TAR (vMiner) para entender cómo funciona TAR para un descubrimiento más rápido
- Indexación más rápida a través de HDFS – velocidad de los datos
- Procesamiento de Lenguaje Natural (NLP) o procesamiento de lenguaje natural – varias técnicas y productos de código abierto
- eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros
Día 3: Sesión 3: BI de Big Data para Ciberseguridad – Comprendiendo las vistas integrales de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas
- Comprensión de los fundamentos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas de host
- Infraestructura de red / gran tubería de datos / ETL de respuesta para análisis en tiempo real
- Prescriptivo vs. predictivo – basado en reglas fijas vs. descubrimiento automático de reglas de amenaza a partir de metadatos
Día 3: Sesión 4: Big Data en el USDA: Aplicaciones en Agricultura
- Introducción al IoT (Internet de las Cosas) para agricultura: Big Data basado en sensores y control
- Introducción a la imagen satelital y sus aplicaciones en la agricultura
- Integración de datos de sensores e imágenes para la fertilidad del suelo, recomendaciones de cultivo y pronósticos
- Seguros agrícolas y Big Data
- Pronóstico de pérdida de cultivos
Día 4: Sesión 1: Prevención de fraudes con BI de Big Data en el gobierno: Análisis de fraude:
- Clasificación básica del análisis de fraude: basado en reglas vs. análisis predictivo
- Aprendizaje supervisado vs. no supervisado para la detección de patrones de fraude
- Fraude de proveedores/cobros excesivos por proyectos
- Fraude en Medicare y Medicaid: técnicas de detección de fraude para el procesamiento de reclamos
- Fraudes de reembolso de viajes
- Fraudes de reembolsos del IRS
- Se brindarán casos de estudio y demostraciones en vivo siempre que los datos estén disponibles.
Día 4: Sesión 2: Análisis de Redes Sociales: Recopilación y análisis de inteligencia
- API de ETL de Big Data para extraer datos de redes sociales
- Texto, imágenes, metadatos y video
- Análisis de sentimiento de los feeds de redes sociales
- Filtrado contextual y no contextual de feeds de redes sociales
- Panel de control (Dashboard) de redes sociales para integrar diversas redes sociales
- Perfilado automatizado de perfiles en redes sociales
- Se brindará una demostración en vivo de cada análisis a través de la herramienta Treeminer.
Día 4: Sesión 3: Análisis de Big Data en procesamiento de imágenes y flujos de video
- Técnicas de almacenamiento de imágenes en Big Data: solución de almacenamiento para datos que exceden petabytes
- LTFS y LTO
- GPFS-LTFS (Solución de almacenamiento en capas para datos de imagen grandes)
- Fundamentos de la analítica de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Seguimiento de movimiento
- Reconstrucción de imágenes 3D
Día 4: Sesión 4: Aplicaciones de Big Data en el NIH:
- Áreas emergentes de bioinformática
- Metagenómica y problemas de minería de Big Data
- Análisis predictivo de Big Data para farmacogenómica, metabolómica y proteómica
- Big Data en el proceso de genómica downstream
- Aplicación de la analítica predictiva de Big Data en salud pública
Panel de control (Dashboard) de Big Data para acceso rápido a datos diversos y visualización:
- Integración de la plataforma de aplicaciones existente con el Panel de control de Big Data
- Gestión de Big Data
- Caso de estudio del Panel de control de Big Data: Tableau y Pentaho
- Uso de la aplicación de Big Data para impulsar servicios basados en ubicación en el gobierno
- Sistema de rastreo y gestión
Día 5: Sesión 1: Cómo justificar la implementación de BI con Big Data dentro de una organización:
- Definición del ROI para la implementación de Big Data
- Casos de estudio sobre el ahorro de tiempo del analista para la recopilación y preparación de datos – aumento en la ganancia de productividad
- Casos de estudio de ganancia de ingresos al ahorrar en costos de bases de datos con licencia
- Ganancia de ingresos de servicios basados en ubicación
- Ahorro por prevención de fraude
- Un enfoque integrado de hojas de cálculo para calcular el gasto aprox. vs. ganancia de ingresos/ahorros de la implementación de Big Data.
Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredado por un sistema de Big Data:
- Comprensión de la hoja de ruta práctica de migración de Big Data
- ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
- ¿Cuáles son las diferentes formas de calcular el volumen, velocidad, variedad y veracidad de los datos?
- ¿Cómo estimar el crecimiento de los datos?
- Casos de estudio
Día 5: Sesión 4: Revisión de proveedores de Big Data y revisión de sus productos. Sesión de preguntas y respuestas:
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (parte de EMC)
Requerimientos
- Conocimiento básico de las operaciones comerciales y los sistemas de datos en el gobierno dentro de su dominio
- Comprensión básica de SQL/Oracle o bases de datos relacionales
- Comprensión básica de Estadística (a nivel de hojas de cálculo)
35 Horas
Testimonios (1)
La capacidad del formador de alinear el curso con los requisitos de la organización, y no solo proporcionarlo por el mero hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática