Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Cada sesión dura 2 horas
Día-1: Sesión -1: Visión general del negocio de ¿Por qué Big Business Intelligence de datos en Gbno.
- Estudios de casos de NIH, DoE
- Gran tasa de adaptación de datos en Gbno. Agencias y cómo están alineando su operación futura con Big Data Predictive Analytics
- Área de Aplicación a Escala Amplia en DoD, NSA, IRS, USDA, etc.
- Interfacing Big Data con datos heredados
- Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
- Integración de datos y visualización de Dashboard
- Gestión de fraude
- Regla comercial / Generación de detección de fraude
- Detección y perfilamiento de amenazas
- Análisis costo-beneficio para la implementación de Big Data
Día-1: Sesión-2: Introducción de datos grandes-1
- Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura de MPP para el volumen.
- Almacenes de datos - esquema estático, conjunto de datos que evoluciona lentamente
- MPP Bases de datos como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop - no hay condiciones sobre la estructura del dataset.
- Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
- Adecuado para análisis analítico / no interactivo
- Volumen: datos de streaming de CEP
- Opciones típicas - productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos producción lista - Storm / S4
- Bases de datos NoSQL - (columnar y clave-valor): Mejor adaptado como adjunto analítico al almacén de datos / base de datos
Día-1: Sesión -3: Introducción a Big Data-2
Soluciones NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
- Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén KV (jerárquico) - GT.m, caché
- KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherencia, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Río Apache
- Base de datos de objetos - ZopeDB, DB40, Shoal
- Tienda de Documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Bases de Datos, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Tienda Columnar ancha - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción al problema de limpieza de datos en Big Data
- RDBMS - estructura estática / esquema, no promueve ágil, el ambiente exploratorio.
- NoSQL - estructura semi estructurada, suficiente para almacenar datos sin esquema exacto antes de almacenar datos
- Problemas de limpieza de datos
Día-1: Sesión-4: Introducción de grandes datos-3: Hadoop
- Cuándo seleccionar Hadoop?
- ESTRUCTURADO - Los almacenes / bases de datos de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
- Datos SEMI ESTRUCTURADOS - difíciles de hacer con soluciones tradicionales (DW / DB)
- Almacenamiento de datos = ENORME esfuerzo y estática incluso después de la implementación
- Por la variedad y el volumen de datos, crujido en el hardware de la materia - HADOOP
- H / W de productos necesarios para crear un clúster Hadoop
Introducción a la reducción de mapa / HDFS
- MapReduce - distribuye la computación en varios servidores
- HDFS - hacer los datos disponibles localmente para el proceso de computación (con redundancia)
- Datos - pueden ser no estructurados / sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programación MapReduce = trabajo con Java (pros / contras), carga manual de datos en HDFS
Día-2: Sesión-1: Big Data Ecosystem-Building Big Data ETL: universo de Big Data Tools-cuál usar y cuándo?
- Hadoop vs. Otras soluciones NoSQL
- Para acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a datos pero restricciones impuestas (max 1 PB)
- No es bueno para análisis ad-hoc, bueno para registrar, contar, series de tiempo
- Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC / ODBC)
- Flume - Flujo de datos (por ejemplo, datos de registro) en HDFS
Día-2: Sesión-2: Gran Sistema de Gestión de Datos
- Partes móviles, los nodos de cálculo de inicio / error: ZooKeeper - Para la configuración / coordinación / servicios de nombres
- Oleoducto / flujo de trabajo complejos: Oozie - gestionar flujo de trabajo, dependencias, conexión en cadena
- Implementar, configurar, administrar el clúster, actualizar etc (sys admin): Ambari
- En la nube: Whirr
Día-2: Sesión-3: Análisis predictivo en Inteligencia de Negocios -1: Técnicas Fundamentales y Aprendizaje Automático basado en BI:
- Introducción al aprendizaje automático
- Técnicas de clasificación de aprendizaje
- Bayesian Prediction-preparación del archivo de entrenamiento
- Máquinas de vectores soporte
- KNN p-Árbol Álgebra y minería vertical
- Red Neural
- Big Data problema variable grande -Random forest (RF)
- Problema de Big Data Automation - Conjunto de múltiples modelos RF
- Automatización a través de Soft10-M
- Herramienta analítica de texto-Treeminer
- Aprendizaje Ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a Herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahut
Día-2: Sesión-4 Análisis predictivo eco-sistema-2: Problemas analíticos predictivos comunes en Gbno.
- Análisis analítico
- Visualización analítica
- Análisis predictivo estructurado
- Análisis predictivo no estructurado
- Perfil de amenaza / fraude / proveedor
- Motor de recomendación
- Detección de patrones
- Descubrimiento de reglas / escenarios: falla, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de los sentimientos
- Análisis de CRM
- Analítica de red
- Análisis de texto
- Revisión asistida por tecnología
- Analisis de fraude
- Analítica en tiempo real
Día-3: Sesion-1: Análisis escalable y en tiempo real sobre Hadoop
- Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
- Apache Hama- para Bulk Synchronous distribued computing
- Apache SPARK- para la computación en clúster para análisis analítico en tiempo real
- CMU Graphics Lab2- Enfoque asincrónico basado en gráficos para la computación distribuida
- KNN enfoque p-álgebra de Treeminer para reducir el costo de hardware de la operación
Día-3: Sesión-2: Herramientas para el eDiscovery y forense
- EDiscovery sobre datos Big Data vs. Legacy - una comparación de costo y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demostración en vivo de un producto de alquitrán (vMiner) para entender cómo TAR funciona para un descubrimiento más rápido
- Indexación más rápida a través de HDFS - velocidad de los datos
- PNL o Procesamiento de Lenguaje Natural - diversas técnicas y productos de código abierto
- EDiscovery en lenguas extranjeras-tecnología para el procesamiento de lenguas extranjeras
Día 3: Sesión 3: Big Data BI para la Seguridad Cibernética -Comprendiendo vistas completas de 360 grados de la rápida recopilación de datos para la identificación de amenazas
- Conceptos básicos de análisis de seguridad: superficie de ataque, configuración errónea de seguridad, defensas del host
- Infraestructura de la red / ETL grande del datapipe / de la respuesta para la analítica en tiempo real
- Prescriptivo vs predictivo - Regla fija basada en auto-descubrimiento de las reglas de amenaza de los metadatos
Día 3: Sesión 4: Datos grandes en el USDA: Aplicación en la agricultura
- Introducción a IoT (Internet de Cosas) para la agricultura-sensor basado en Big Data y control
- Introducción a la imagen por satélite y su aplicación en la agricultura
- Integración de sensores y datos de imagen para la fertilidad del suelo, recomendación de cultivo y previsión
- Seguro agrícola y Big Data
- Predicción de pérdidas de cultivos
Día-4: Sesión-1: prevención del fraude BI de Big Data en Govt-Fraud analítica:
- Clasificación básica de la analítica de fraude-basada en reglas y analítica predictiva
- Supervisado vs no supervisado Aprendizaje de máquina para la detección de patrón de fraude
- Fraude de proveedores / sobre facturación de proyectos
- Medicare y Medicaid fraude-técnicas de detección de fraude para el procesamiento de reclamaciones
- Fraude de reembolso de viajes
- Fraude de reembolso del IRS
- Los estudios de casos y la demostración en vivo se darán siempre que se disponga de datos.
Día-4: Sesión-2: Recopilación y análisis de la inteligencia analítica de los medios sociales
- Big Data ETL API para extraer datos de redes sociales
- Texto, imagen, metadatos y vídeo
- Análisis de sentimientos de los medios de comunicación social feed
- Filtrado contextual y no contextual de los medios de comunicación social feed
- Social Media Dashboard para integrar diversas redes sociales
- Perfiles automatizados de perfil de redes sociales
- Demostración en vivo de cada analítica se dará a través de Treeminer Tool.
Día-4: Sesión-3: Análisis de datos grandes en procesamiento de imágenes y video feeds
- Técnicas de almacenamiento de imágenes en la solución Big Data-Storage para datos que exceden los petabytes
- LTFS y LTO
- GPFS-LTFS (solución de almacenamiento en capas para datos de imagen grande)
- Fundamental del análisis de imagen
- Reconocimiento de objetos
- Segmentación de imagen
- Rastreo de movimiento
- Reconstrucción 3D de imágenes
Día-4: Sesión-4: Aplicaciones de datos grandes en NIH:
- Nuevas áreas de Bio-informática
- Meta-genómica y cuestiones de minería de datos grandes
- Analítica predictiva de Big Data para Farmacogenómica, Metabolómica y Proteómica
- Datos grandes en el proceso de Genómica descendente
- Aplicación de la analítica predictiva de grandes datos en salud pública
Big Data Dashboard para una rápida accesibilidad de diversos datos y visualización:
- Integración de la plataforma de aplicaciones existente con Big Data Dashboard
- Gestión de grandes datos
- Estudio de caso de Big Data Dashboard: Tableau y Pentaho
- Utilice la aplicación Big Data para impulsar servicios basados en ubicación en Gbno.
- Sistema de seguimiento y gestión
Día-5: Sesión-1: Cómo justificar la implementación de Big Data BI dentro de una organización:
- Definición del ROI para la implementación de Big Data
- Estudios de caso para el ahorro Analista Tiempo de recolección y preparación de datos - Aumento de la ganancia de productividad
- Estudios de caso de ganancia de ingresos al guardar el coste de base de datos con licencia
- Ganancia de ingresos de servicios basados en ubicación
- Ahorro de la prevención del fraude
- Un enfoque de hoja de cálculo integrado para calcular aprox. Gasto vs. Ganancia / ahorro de ingresos de la implementación de Big Data.
Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredados a Big Data System:
- Entender la hoja de ruta práctica de Big Data Migration
- Cuáles son la información importante necesaria antes de diseñar una implementación de Big Data
- Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos
- Cómo estimar el crecimiento de los datos
- Estudios de caso
Día 5: Sesión 4: Revisión de los proveedores de Big Data y revisión de sus productos. Sesión de Q / A:
- Accenture
- APTEAN (Anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluciones Opera
- Oráculo
- Pentaho
- Platfora
- Qliktech
- Cuántico
- Espacio en bastidor
- Revolution Analytics
- Fuerza de ventas
- SAVIA
- Instituto SAS
- Sisense
- Software AG / Terracota
- Automatización Soft10
- Splunk
- Cuadrado
- Supermicro
- Tabla Software
- Teradata
- Piensa en Big Analytics
- Tidemark Sistemas
- Treeminer
- VMware (parte de EMC)
Requerimientos
- Conocimientos básicos de operación de negocios y sistemas de datos en Gbno. En su dominio
- Conocimiento básico de SQL / Oracle o base de datos relacional
- Comprensión básica de las estadísticas (a nivel de hoja de cálculo)
35 Horas
Testimonios (1)
La capacidad del formador para alinear el curso con los requisitos de la organización, además de limitarse a impartir el curso por el simple hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática