Contacta con nosotros

Temario del curso

Día 01

Visión general de la Inteligencia de Negocios de Big Data para el Análisis de Inteligencia Criminal

  • Casos de Estudio de las Fuerzas del Orden - Patrullaje Predictivo
  • Tasa de adopción de Big Data en Agencias de Policía y cómo están alineando sus operaciones futuras en torno al Análisis Predictivo de Big Data
  • Soluciones tecnológicas emergentes como sensores de disparos, video de vigilancia y redes sociales
  • Uso de la tecnología de Big Data para mitigar la sobrecarga de información
  • Integración de Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de paneles (Dashboards)
  • Gestión de fraudes
  • Reglas de negocio y detección de fraudes
  • Detección de amenazas y perfiles
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Características principales de Big Data: Volumen, Variedad, Velocidad y Veracidad.
  • Arquitectura MPP (Procesamiento Masivamente Paralelo)
  • Almacenes de datos (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperación desde HDFS
  • Apache Spark para procesamiento de flujos (stream processing)
  • Lotes (Batch) – adecuados para análisis/no interactivos
  • Volumen: Datos de streaming CEP (Processamiento de Eventos Complejos)
  • Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.)
  • Menos listos para producción – Storm/S4
  • Bases de datos NoSQL (columnares y clave-valor): Las más adecuadas como complemento analítico al almacén de datos/base de datos

Soluciones NoSQL

  • Almacén KV (Clave-Valor) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Almacén KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (Jerárquico) - GT.m, Cache
  • Almacén KV (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Caché KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Almacén de tuplas - Gigaspaces, Coord, Apache River
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Almacén de columnas anchas (Wide Columnar Store) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de Datos: Introducción a los problemas de limpieza de datos en Big Data

  • RDBMS – estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo al almacenamiento
  • Problemas de limpieza de datos

Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO - Los almacenes de datos/ bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
  • SEMIESTRUCTURADO – difícil de llevar a cabo con soluciones tradicionales (DW/DB)
  • Almacenamiento de datos = ESFUERZO ENORME y estático incluso después de la implementación
  • Para la variedad y volumen de datos, procesados en hardware de precio competitivo – HADOOP
  • Hardware de precio competitivo necesario para crear un clúster de Hadoop

Introducción a MapReduce / HDFS

  • MapReduce – distribuir el cómputo entre múltiples servidores
  • HDFS – hacer los datos disponibles localmente para el proceso de cómputo (con redundancia)
  • Datos – pueden ser no estructurados/sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador: dar sentido a los datos
  • Programar MapReduce = trabajar con Java (pros/contras), cargar manualmente los datos en HDFS

Día 02

Ecosistema de Big Data: Construcción de ETL de Big Data (Extracción, Transformación, Carga) – ¿Qué herramientas de Big Data usar y cuándo?

  • Hadoop vs. otras soluciones NoSQL
  • Para acceso aleatorio e interactivo a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos pero con restricciones impuestas (máx 1 PB)
  • No es bueno para análisis ad-hoc, bueno para registros, conteo, series de tiempo
  • Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume – Enviar datos en flujo (ej. datos de registro) a HDFS

Sistema de Gestión de Big Data

  • Partes móviles, nodos de cómputo inician/fallan: ZooKeeper - Para servicios de configuración/coordinación/nombrado
  • Pipeline/flujo de trabajo complejo: Oozie – gestionar flujo de trabajo, dependencias, encadenamiento
  • Desplegar, configurar, gestión de clústeres, actualizaciones, etc. (sys admin): Ambari
  • En la Nube: Whirr

Analítica Predictiva – Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático

  • Introducción al Aprendizaje Automático (Machine Learning)
  • Aprendizaje de técnicas de clasificación
  • Predicción Bayesiana – preparación de un archivo de entrenamiento
  • Máquina de Soporte Vectorial (Support Vector Machine)
  • Álgebra KNN p-Tree y minería vertical
  • Redes Neuronales
  • Problema de grandes variables de Big Data – Bosque Aleatorio (Random Forest, RF)
  • Problema de Automatización de Big Data – RF de conjunto multicamion (Multi-model ensemble RF)
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto: Treeminer
  • Aprendizaje ágil (Agile learning)
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a Herramientas de código abierto para analítica predictiva: R, Python, Rapidminer, Mahout

Ecosistema de Analítica Predictiva y su aplicación en el Análisis de Inteligencia Criminal

  • Tecnología y el proceso de investigación
  • Analítica de información (Insight analytic)
  • Analítica de visualización
  • Analítica predictiva estructurada
  • Analítica predictiva no estructurada
  • Perfiles de amenazas/fraude/proveedores
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas/escenarios – fallas, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Analítica CRM
  • Analítica de redes
  • Analítica de texto para obtener información de transcripciones, declaraciones de testigos, conversación en internet, etc.
  • Revisión asistida por tecnología
  • Analítica de fraudes
  • Analítica en Tiempo Real

Día 03

Analítica Escalable y en Tiempo Real sobre Hadoop

  • Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
  • Apache Hama - para cómputo distribuido síncrono masivo (Bulk Synchronous)
  • Apache SPARK - para cómputo en clúster y analítica en tiempo real
  • CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para el cómputo distribuido
  • KNN p - Enfoque basado en álgebra de Treeminer para reducir el costo operativo de hardware

Herramientas para eDiscovery (Descubrimiento Electrónico) y Peritaje Informático (Forensics)

  • eDiscovery sobre Big Data vs. Datos heredados – una comparación de costo y rendimiento
  • Codificación predictiva y Revisión Asistida por Tecnología (TAR)
  • Demo en vivo de vMiner para comprender cómo TAR habilita un descubrimiento más rápido
  • Indexación más rápida a través de HDFS – Velocidad de los datos
  • NLP (Procesamiento de Lenguaje Natural) – productos y técnicas de código abierto
  • eDiscovery en idiomas extranjeros – tecnología para el procesamiento de idiomas extranjeros

BI de Big Data para Ciberseguridad – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas

  • Comprensión de los fundamentos de la analítica de seguridad – superficie de ataque, configuración errónea de seguridad, defensas de host
  • Infraestructura de red / gran tubería de datos / ETL de respuesta para analítica en tiempo real
  • Predictiva vs. Prescriptiva – reglas fijas basadas en reglas vs. descubrimiento automático de reglas de amenaza a partir de metadatos

Recopilación de datos dispersos para el Análisis de Inteligencia Criminal

  • Uso de IoT (Internet de las Cosas) como sensores para capturar datos
  • Uso de imágenes satelitales para vigilancia doméstica
  • Uso de datos de vigilancia e imagen para la identificación criminal
  • Otras tecnologías de recopilación de datos – drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imagen térmica
  • Combinación de recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones
  • Pronóstico de actividad criminal

Día 04

Prevención de Fraudes BI de Big Data en Analítica de Fraudes

  • Clasificación básica de la Analítica de Fraudes – basada en reglas vs. analítica predictiva
  • Aprendizaje supervisado vs. no supervisado para la detección de patrones de fraude
  • Fraude entre empresas, fraude en reclamos médicos, fraude de seguros, evasión fiscal y lavado de dinero

Analítica de Redes Sociales – Recopilación y análisis de inteligencia

  • Cómo los criminales utilizan las redes sociales para organizar, reclutar y planificar
  • API de ETL de Big Data para extraer datos de redes sociales
  • Texto, imágenes, metadatos y video
  • Análisis de sentimiento a partir del feed de redes sociales
  • Filtrado contextual y no contextual del feed de redes sociales
  • Panel de control de Redes Sociales para integrar diversas redes sociales
  • Perfiles automatizados de perfiles de redes sociales
  • Se proporcionará una demo en vivo de cada analítica a través de la herramienta Treeminer

Analítica de Big Data en procesamiento de imágenes y flujos de video

  • Técnicas de almacenamiento de imágenes en Big Data – Solución de almacenamiento para datos que exceden los petabytes
  • LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta)
  • GPFS-LTFS (Sistema de Archivos Paralelos General - Sistema de Archivos de Cinta Lineal) – solución de almacenamiento en capas para datos de imágenes grandes
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Rastreo de movimiento
  • Reconstrucción de imágenes 3D

Biometría, ADN y Programas de Identificación de Nueva Generación

  • Más allá de la huella dactilar y el reconocimiento facial
  • Reconocimiento de voz, reconocimiento de patrones de tecleo (analizar el patrón de escritura de un usuario) y CODIS (Sistema Combinado de Índice de ADN)
  • Más allá de la coincidencia de ADN: uso de la fenotipificación forense de ADN para construir un rostro a partir de muestras de ADN

Panel de control (Dashboard) de Big Data para acceso rápido y visualización de diversos datos:

  • Integración de la plataforma de aplicaciones existente con el Panel de control de Big Data
  • Gestión de Big Data
  • Caso de Estudio del Panel de control de Big Data: Tableau y Pentaho
  • Uso de aplicaciones de Big Data para impulsar servicios basados en ubicación en el gobierno
  • Sistema y gestión de seguimiento

Día 05

Cómo justificar la implementación de BI de Big Data dentro de una organización:

  • Definición del ROI (Retorno de la Inversión) para implementar Big Data
  • Casos de estudio sobre el ahorro de tiempo del analista en la recopilación y preparación de datos – aumentando la productividad
  • Ganancia de ingresos por menor costo de licencias de bases de datos
  • Ganancia de ingresos por servicios basados en ubicación
  • Ahorro de costos por prevención de fraudes
  • Un enfoque integrado de hojas de cálculo para calcular gastos aproximados vs. Ganancia/ahorro de ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema de Big Data

  • Ruta de migración de Big Data
  • ¿Qué información crítica se necesita antes de diseñar un sistema de Big Data?
  • ¿Cuáles son las diferentes formas de calcular el Volumen, Velocidad, Variedad y Veracidad de los datos?
  • ¿Cómo estimar el crecimiento de los datos?
  • Casos de estudio

Revisión de proveedores de Big Data y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte de EMC)

Sesión de preguntas y respuestas

Requerimientos

  • Conocimiento de los procesos de las fuerzas del orden y los sistemas de datos
  • Comprensión básica de SQL/Oracle o bases de datos relacionales
  • Comprensión básica de estadísticas (a nivel de hojas de cálculo)

Audiencia

  • Especialistas de las fuerzas del orden con antecedentes técnicos
 35 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas