Temario del curso
Día 01
Visión general de la Inteligencia de Negocios de Big Data para el Análisis de Inteligencia Criminal
- Casos de Estudio de las Fuerzas del Orden - Patrullaje Predictivo
- Tasa de adopción de Big Data en Agencias de Policía y cómo están alineando sus operaciones futuras en torno al Análisis Predictivo de Big Data
- Soluciones tecnológicas emergentes como sensores de disparos, video de vigilancia y redes sociales
- Uso de la tecnología de Big Data para mitigar la sobrecarga de información
- Integración de Big Data con datos heredados
- Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
- Integración de datos y visualización de paneles (Dashboards)
- Gestión de fraudes
- Reglas de negocio y detección de fraudes
- Detección de amenazas y perfiles
- Análisis de costo-beneficio para la implementación de Big Data
Introducción a Big Data
- Características principales de Big Data: Volumen, Variedad, Velocidad y Veracidad.
- Arquitectura MPP (Procesamiento Masivamente Paralelo)
- Almacenes de datos (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
- Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
- Apache Spark para procesamiento de flujos (stream processing)
- Lotes (Batch) – adecuados para análisis/no interactivos
- Volumen: Datos de streaming CEP (Processamiento de Eventos Complejos)
- Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
- Menos listos para producción – Storm/S4
- Bases de datos NoSQL (columnares y clave-valor): Las más adecuadas como complemento analítico al almacén de datos/base de datos
Soluciones NoSQL
- Almacén KV (Clave-Valor) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Almacén KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén KV (Jerárquico) - GT.m, Cache
- Almacén KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Almacén de tuplas - Gigaspaces, Coord, Apache River
- Base de datos de objetos - ZopeDB, DB40, Shoal
- Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Almacén de columnas anchas (Wide Columnar Store) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de Datos: Introducción a los problemas de limpieza de datos en Big Data
- RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo al almacenamiento
- Problemas de limpieza de datos
Hadoop
- ¿Cuándo seleccionar Hadoop?
- ESTRUCTURADO - Los almacenes de datos/ bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
- SEMIESTRUCTURADO – difícil de llevar a cabo con soluciones tradicionales (DW/DB)
- Almacenamiento de datos = ESFUERZO ENORME y estático incluso después de la implementación
- Para la variedad y volumen de datos, procesados en hardware de precio competitivo – HADOOP
- Hardware de precio competitivo necesario para crear un clúster de Hadoop
Introducción a MapReduce / HDFS
- MapReduce – distribuir el cómputo entre múltiples servidores
- HDFS – hacer los datos disponibles localmente para el proceso de cómputo (con redundancia)
- Datos – pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador: dar sentido a los datos
- Programar MapReduce = trabajar con Java (pros/contras), cargar manualmente los datos en HDFS
Día 02
Ecosistema de Big Data: Construcción de ETL de Big Data (Extracción, Transformación, Carga) – ¿Qué herramientas de Big Data usar y cuándo?
- Hadoop vs. otras soluciones NoSQL
- Para acceso aleatorio e interactivo a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos pero con restricciones impuestas (máx 1 PB)
- No es bueno para análisis ad-hoc, bueno para registros, conteo, series de tiempo
- Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume – Enviar datos en flujo (ej. datos de registro) a HDFS
Sistema de Gestión de Big Data
- Partes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/nombrado
- Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, encadenamiento
- Desplegar, configurar, gestión de clústeres, actualizaciones, etc. (sys admin): Ambari
- En la Nube: Whirr
Analítica Predictiva – Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático
- Introducción al Aprendizaje Automático (Machine Learning)
- Aprendizaje de técnicas de clasificación
- Predicción Bayesiana – preparación de un archivo de entrenamiento
- Máquina de Soporte Vectorial (Support Vector Machine)
- Álgebra KNN p-Tree y minería vertical
- Redes Neuronales
- Problema de grandes variables de Big Data – Bosque Aleatorio (Random Forest, RF)
- Problema de Automatización de Big Data – RF de conjunto multicamion (Multi-model ensemble RF)
- Automatización a través de Soft10-M
- Herramienta de análisis de texto: Treeminer
- Aprendizaje ágil (Agile learning)
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a Herramientas de código abierto para analítica predictiva: R, Python, Rapidminer, Mahout
Ecosistema de Analítica Predictiva y su aplicación en el Análisis de Inteligencia Criminal
- Tecnología y el proceso de investigación
- Analítica de información (Insight analytic)
- Analítica de visualización
- Analítica predictiva estructurada
- Analítica predictiva no estructurada
- Perfiles de amenazas/fraude/proveedores
- Motor de recomendación
- Detección de patrones
- Descubrimiento de reglas/escenarios – fallas, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de sentimiento
- Analítica CRM
- Analítica de redes
- Analítica de texto para obtener información de transcripciones, declaraciones de testigos, conversación en internet, etc.
- Revisión asistida por tecnología
- Analítica de fraudes
- Analítica en Tiempo Real
Día 03
Analítica Escalable y en Tiempo Real sobre Hadoop
- Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
- Apache Hama - para cómputo distribuido síncrono masivo (Bulk Synchronous)
- Apache SPARK - para cómputo en clúster y analítica en tiempo real
- CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para el cómputo distribuido
- KNN p - Enfoque basado en álgebra de Treeminer para reducir el costo operativo de hardware
Herramientas para eDiscovery (Descubrimiento Electrónico) y Peritaje Informático (Forensics)
- eDiscovery sobre Big Data vs. Datos heredados – una comparación de costo y rendimiento
- Codificación predictiva y Revisión Asistida por Tecnología (TAR)
- Demo en vivo de vMiner para comprender cómo TAR habilita un descubrimiento más rápido
- Indexación más rápida a través de HDFS – Velocidad de los datos
- NLP (Procesamiento de Lenguaje Natural) – productos y técnicas de código abierto
- eDiscovery en idiomas extranjeros – tecnología para el procesamiento de idiomas extranjeros
BI de Big Data para Ciberseguridad – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas
- Comprensión de los fundamentos de la analítica de seguridad – superficie de ataque, configuración errónea de seguridad, defensas de host
- Infraestructura de red / gran tubería de datos / ETL de respuesta para analítica en tiempo real
- Predictiva vs. Prescriptiva – reglas fijas basadas en reglas vs. descubrimiento automático de reglas de amenaza a partir de metadatos
Recopilación de datos dispersos para el Análisis de Inteligencia Criminal
- Uso de IoT (Internet de las Cosas) como sensores para capturar datos
- Uso de imágenes satelitales para vigilancia doméstica
- Uso de datos de vigilancia e imagen para la identificación criminal
- Otras tecnologías de recopilación de datos – drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imagen térmica
- Combinación de recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones
- Pronóstico de actividad criminal
Día 04
Prevención de Fraudes BI de Big Data en Analítica de Fraudes
- Clasificación básica de la Analítica de Fraudes – basada en reglas vs. analítica predictiva
- Aprendizaje supervisado vs. no supervisado para la detección de patrones de fraude
- Fraude entre empresas, fraude en reclamos médicos, fraude de seguros, evasión fiscal y lavado de dinero
Analítica de Redes Sociales – Recopilación y análisis de inteligencia
- Cómo los criminales utilizan las redes sociales para organizar, reclutar y planificar
- API de ETL de Big Data para extraer datos de redes sociales
- Texto, imágenes, metadatos y video
- Análisis de sentimiento a partir del feed de redes sociales
- Filtrado contextual y no contextual del feed de redes sociales
- Panel de control de Redes Sociales para integrar diversas redes sociales
- Perfiles automatizados de perfiles de redes sociales
- Se proporcionará una demo en vivo de cada analítica a través de la herramienta Treeminer
Analítica de Big Data en procesamiento de imágenes y flujos de video
- Técnicas de almacenamiento de imágenes en Big Data – Solución de almacenamiento para datos que exceden los petabytes
- LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta)
- GPFS-LTFS (Sistema de Archivos Paralelos General - Sistema de Archivos de Cinta Lineal) – solución de almacenamiento en capas para datos de imágenes grandes
- Fundamentos de la analítica de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Rastreo de movimiento
- Reconstrucción de imágenes 3D
Biometría, ADN y Programas de Identificación de Nueva Generación
- Más allá de la huella dactilar y el reconocimiento facial
- Reconocimiento de voz, reconocimiento de patrones de tecleo (analizar el patrón de escritura de un usuario) y CODIS (Sistema Combinado de Índice de ADN)
- Más allá de la coincidencia de ADN: uso de la fenotipificación forense de ADN para construir un rostro a partir de muestras de ADN
Panel de control (Dashboard) de Big Data para acceso rápido y visualización de diversos datos:
- Integración de la plataforma de aplicaciones existente con el Panel de control de Big Data
- Gestión de Big Data
- Caso de Estudio del Panel de control de Big Data: Tableau y Pentaho
- Uso de aplicaciones de Big Data para impulsar servicios basados en ubicación en el gobierno
- Sistema y gestión de seguimiento
Día 05
Cómo justificar la implementación de BI de Big Data dentro de una organización:
- Definición del ROI (Retorno de la Inversión) para implementar Big Data
- Casos de estudio sobre el ahorro de tiempo del analista en la recopilación y preparación de datos – aumentando la productividad
- Ganancia de ingresos por menor costo de licencias de bases de datos
- Ganancia de ingresos por servicios basados en ubicación
- Ahorro de costos por prevención de fraudes
- Un enfoque integrado de hojas de cálculo para calcular gastos aproximados vs. Ganancia/ahorro de ingresos de la implementación de Big Data.
Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema de Big Data
- Ruta de migración de Big Data
- ¿Qué información crítica se necesita antes de diseñar un sistema de Big Data?
- ¿Cuáles son las diferentes formas de calcular el Volumen, Velocidad, Variedad y Veracidad de los datos?
- ¿Cómo estimar el crecimiento de los datos?
- Casos de estudio
Revisión de proveedores de Big Data y revisión de sus productos.
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte de EMC)
Sesión de preguntas y respuestas
Requerimientos
- Conocimiento de los procesos de las fuerzas del orden y los sistemas de datos
- Comprensión básica de SQL/Oracle o bases de datos relacionales
- Comprensión básica de estadísticas (a nivel de hojas de cálculo)
Audiencia
- Especialistas de las fuerzas del orden con antecedentes técnicos
Testimonios (3)
fundamentos y amó los documentos y ejercicios preparados
Rekha Nallam - GE Medical Systems Polska Sp. z o.o.
Curso - Introduction to Predictive AI
Traducción Automática
Que fue muy priactico.
Alfonso Ramos - Banco de Mexico
Curso - Fundamentos de Integración de Datos Pentaho
Deepthi estaba muy atenta a mis necesidades, podía percibir cuándo añadir capas de complejidad y cuándo mantenerse atrás y adoptar un enfoque más estructurado. Deepthi realmente trabajó a mi ritmo y aseguró que pudiera utilizar las nuevas funciones/herramientas por mí mismo, primero mostrándome y luego dejándome recrear los elementos por mí mismo, lo cual ayudó mucho a consolidar la formación. ¡No podría estar más satisfecho con los resultados de esta capacitación y con el nivel de experiencia de Deepthi!
Deepthi - Invest Northern Ireland
Curso - IBM Cognos Analytics
Traducción Automática