Temario del curso

Cada sesión dura 2 horas

Día-1: Sesión -1: Visión general del negocio de ¿Por qué Big Business Intelligence de datos en Gbno.

  • Estudios de casos de NIH, DoE
  • Gran tasa de adaptación de datos en Gbno. Agencias y cómo están alineando su operación futura con Big Data Predictive Analytics
  • Área de Aplicación a Escala Amplia en DoD, NSA, IRS, USDA, etc.
  • Interfacing Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de Dashboard
  • Gestión de fraude
  • Regla comercial / Generación de detección de fraude
  • Detección y perfilamiento de amenazas
  • Análisis costo-beneficio para la implementación de Big Data

Día-1: Sesión-2: Introducción de datos grandes-1

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura de MPP para el volumen.
  • Almacenes de datos - esquema estático, conjunto de datos que evoluciona lentamente
  • MPP Bases de datos como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop - no hay condiciones sobre la estructura del dataset.
  • Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
  • Adecuado para análisis analítico / no interactivo
  • Volumen: datos de streaming de CEP
  • Opciones típicas - productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista - Storm / S4
  • Bases de datos NoSQL - (columnar y clave-valor): Mejor adaptado como adjunto analítico al almacén de datos / base de datos

Día-1: Sesión -3: Introducción a Big Data-2

Soluciones NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (jerárquico) - GT.m, caché
  • KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherencia, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Río Apache
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Tienda de Documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Bases de Datos, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Tienda Columnar ancha - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción al problema de limpieza de datos en Big Data

  • RDBMS - estructura estática / esquema, no promueve ágil, el ambiente exploratorio.
  • NoSQL - estructura semi estructurada, suficiente para almacenar datos sin esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Día-1: Sesión-4: Introducción de grandes datos-3: Hadoop

  • Cuándo seleccionar Hadoop?
  • ESTRUCTURADO - Los almacenes / bases de datos de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS - difíciles de hacer con soluciones tradicionales (DW / DB)
  • Almacenamiento de datos = ENORME esfuerzo y estática incluso después de la implementación
  • Por la variedad y el volumen de datos, crujido en el hardware de la materia - HADOOP
  • H / W de productos necesarios para crear un clúster Hadoop

Introducción a la reducción de mapa / HDFS

  • MapReduce - distribuye la computación en varios servidores
  • HDFS - hacer los datos disponibles localmente para el proceso de computación (con redundancia)
  • Datos - pueden ser no estructurados / sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programación MapReduce = trabajo con Java (pros / contras), carga manual de datos en HDFS

Día-2: Sesión-1: Big Data Ecosystem-Building Big Data ETL: universo de Big Data Tools-cuál usar y cuándo?

  • Hadoop vs. Otras soluciones NoSQL
  • Para acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a datos pero restricciones impuestas (max 1 PB)
  • No es bueno para análisis ad-hoc, bueno para registrar, contar, series de tiempo
  • Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC / ODBC)
  • Flume - Flujo de datos (por ejemplo, datos de registro) en HDFS

Día-2: Sesión-2: Gran Sistema de Gestión de Datos

  • Partes móviles, los nodos de cálculo de inicio / error: ZooKeeper - Para la configuración / coordinación / servicios de nombres
  • Oleoducto / flujo de trabajo complejos: Oozie - gestionar flujo de trabajo, dependencias, conexión en cadena
  • Implementar, configurar, administrar el clúster, actualizar etc (sys admin): Ambari
  • En la nube: Whirr

Día-2: Sesión-3: Análisis predictivo en Inteligencia de Negocios -1: Técnicas Fundamentales y Aprendizaje Automático basado en BI:

  • Introducción al aprendizaje automático
  • Técnicas de clasificación de aprendizaje
  • Bayesian Prediction-preparación del archivo de entrenamiento
  • Máquinas de vectores soporte
  • KNN p-Árbol Álgebra y minería vertical
  • Red Neural
  • Big Data problema variable grande -Random forest (RF)
  • Problema de Big Data Automation - Conjunto de múltiples modelos RF
  • Automatización a través de Soft10-M
  • Herramienta analítica de texto-Treeminer
  • Aprendizaje Ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a Herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahut

Día-2: Sesión-4 Análisis predictivo eco-sistema-2: Problemas analíticos predictivos comunes en Gbno.

  • Análisis analítico
  • Visualización analítica
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfil de amenaza / fraude / proveedor
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas / escenarios: falla, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de los sentimientos
  • Análisis de CRM
  • Analítica de red
  • Análisis de texto
  • Revisión asistida por tecnología
  • Analisis de fraude
  • Analítica en tiempo real

Día-3: Sesion-1: Análisis escalable y en tiempo real sobre Hadoop

  • Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
  • Apache Hama- para Bulk Synchronous distribued computing
  • Apache SPARK- para la computación en clúster para análisis analítico en tiempo real
  • CMU Graphics Lab2- Enfoque asincrónico basado en gráficos para la computación distribuida
  • KNN enfoque p-álgebra de Treeminer para reducir el costo de hardware de la operación

Día-3: Sesión-2: Herramientas para el eDiscovery y forense

  • EDiscovery sobre datos Big Data vs. Legacy - una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de un producto de alquitrán (vMiner) para entender cómo TAR funciona para un descubrimiento más rápido
  • Indexación más rápida a través de HDFS - velocidad de los datos
  • PNL o Procesamiento de Lenguaje Natural - diversas técnicas y productos de código abierto
  • EDiscovery en lenguas extranjeras-tecnología para el procesamiento de lenguas extranjeras

Día 3: Sesión 3: Big Data BI para la Seguridad Cibernética -Comprendiendo vistas completas de 360 grados de la rápida recopilación de datos para la identificación de amenazas

  • Conceptos básicos de análisis de seguridad: superficie de ataque, configuración errónea de seguridad, defensas del host
  • Infraestructura de la red / ETL grande del datapipe / de la respuesta para la analítica en tiempo real
  • Prescriptivo vs predictivo - Regla fija basada en auto-descubrimiento de las reglas de amenaza de los metadatos

Día 3: Sesión 4: Datos grandes en el USDA: Aplicación en la agricultura

  • Introducción a IoT (Internet de Cosas) para la agricultura-sensor basado en Big Data y control
  • Introducción a la imagen por satélite y su aplicación en la agricultura
  • Integración de sensores y datos de imagen para la fertilidad del suelo, recomendación de cultivo y previsión
  • Seguro agrícola y Big Data
  • Predicción de pérdidas de cultivos

Día-4: Sesión-1: prevención del fraude BI de Big Data en Govt-Fraud analítica:

  • Clasificación básica de la analítica de fraude-basada en reglas y analítica predictiva
  • Supervisado vs no supervisado Aprendizaje de máquina para la detección de patrón de fraude
  • Fraude de proveedores / sobre facturación de proyectos
  • Medicare y Medicaid fraude-técnicas de detección de fraude para el procesamiento de reclamaciones
  • Fraude de reembolso de viajes
  • Fraude de reembolso del IRS
  • Los estudios de casos y la demostración en vivo se darán siempre que se disponga de datos.

Día-4: Sesión-2: Recopilación y análisis de la inteligencia analítica de los medios sociales

  • Big Data ETL API para extraer datos de redes sociales
  • Texto, imagen, metadatos y vídeo
  • Análisis de sentimientos de los medios de comunicación social feed
  • Filtrado contextual y no contextual de los medios de comunicación social feed
  • Social Media Dashboard para integrar diversas redes sociales
  • Perfiles automatizados de perfil de redes sociales
  • Demostración en vivo de cada analítica se dará a través de Treeminer Tool.

Día-4: Sesión-3: Análisis de datos grandes en procesamiento de imágenes y video feeds

  • Técnicas de almacenamiento de imágenes en la solución Big Data-Storage para datos que exceden los petabytes
  • LTFS y LTO
  • GPFS-LTFS (solución de almacenamiento en capas para datos de imagen grande)
  • Fundamental del análisis de imagen
  • Reconocimiento de objetos
  • Segmentación de imagen
  • Rastreo de movimiento
  • Reconstrucción 3D de imágenes

Día-4: Sesión-4: Aplicaciones de datos grandes en NIH:

  • Nuevas áreas de Bio-informática
  • Meta-genómica y cuestiones de minería de datos grandes
  • Analítica predictiva de Big Data para Farmacogenómica, Metabolómica y Proteómica
  • Datos grandes en el proceso de Genómica descendente
  • Aplicación de la analítica predictiva de grandes datos en salud pública

Big Data Dashboard para una rápida accesibilidad de diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Gestión de grandes datos
  • Estudio de caso de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar servicios basados en ubicación en Gbno.
  • Sistema de seguimiento y gestión

Día-5: Sesión-1: Cómo justificar la implementación de Big Data BI dentro de una organización:

  • Definición del ROI para la implementación de Big Data
  • Estudios de caso para el ahorro Analista Tiempo de recolección y preparación de datos - Aumento de la ganancia de productividad
  • Estudios de caso de ganancia de ingresos al guardar el coste de base de datos con licencia
  • Ganancia de ingresos de servicios basados en ubicación
  • Ahorro de la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular aprox. Gasto vs. Ganancia / ahorro de ingresos de la implementación de Big Data.

Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredados a Big Data System:

  • Entender la hoja de ruta práctica de Big Data Migration
  • Cuáles son la información importante necesaria antes de diseñar una implementación de Big Data
  • Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos
  • Cómo estimar el crecimiento de los datos
  • Estudios de caso

Día 5: Sesión 4: Revisión de los proveedores de Big Data y revisión de sus productos. Sesión de Q / A:

  • Accenture
  • APTEAN (Anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuántico
  • Espacio en bastidor
  • Revolution Analytics
  • Fuerza de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG / Terracota
  • Automatización Soft10
  • Splunk
  • Cuadrado
  • Supermicro
  • Tabla Software
  • Teradata
  • Piensa en Big Analytics
  • Tidemark Sistemas
  • Treeminer
  • VMware (parte de EMC)

Requerimientos

  • Conocimientos básicos de operación de negocios y sistemas de datos en Gbno. En su dominio
  • Conocimiento básico de SQL / Oracle o base de datos relacional
  • Comprensión básica de las estadísticas (a nivel de hoja de cálculo)
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (1)

Próximos cursos

Categorías Relacionadas