Contacta con nosotros

Temario del curso

Introducción al análisis de datos y Big Data

  • ¿Qué hace que Big Data sea "grande"?
    • Velocidad, Volumen, Variedad, Veracidad (VVVV)
  • Límites del procesamiento tradicional de datos
  • Procesamiento distribuido
  • Análisis estadístico
  • Tipos de análisis de aprendizaje automático
  • Visualización de datos

Roles y responsabilidades en Big Data

  • Administradores
  • Desarrolladores
  • Analistas de datos

Lenguajes utilizados para el análisis de datos

  • Lenguaje R
    • ¿Por qué R para el análisis de datos?
    • Manipulación de datos, cálculo y visualización gráfica
  • Python
    • ¿Por qué Python para el análisis de datos?
    • Manipulación, procesamiento, limpieza y procesamiento de datos

Enfoques del análisis de datos

  • Análisis estadístico
    • Análisis de series temporales
    • Pronósticos con modelos de correlación y regresión
    • Estadística inferencial (estimación)
    • Estadística descriptiva en conjuntos de datos grandes (por ejemplo, calcular la media)
  • Aprendizaje automático
    • Aprendizaje supervisado vs no supervisado
    • Clasificación y clustering
    • Estimación del costo de métodos específicos
    • Filtrado
  • Procesamiento del lenguaje natural
    • Procesamiento de texto
    • Comprensión del significado del texto
    • Generación automática de texto
    • Análisis de sentimiento / análisis de temas
  • Visión por computadora
    • Adquisición, procesamiento, análisis y comprensión de imágenes
    • Reconstrucción, interpretación y comprensión de escenas 3D
    • Uso de datos de imagen para la toma de decisiones

Infraestructura de Big Data

  • Almacenamiento de datos
    • Bases de datos relacionales (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bases de datos no relacionales (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • Comprensión de las diferencias
      • Bases de datos jerárquicas
      • Bases de datos orientadas a objetos
      • Bases de datos orientadas a documentos
      • Bases de datos orientadas a grafos
      • Otras
  • Procesamiento distribuido
    • Hadoop
      • HDFS como sistema de archivos distribuido
      • MapReduce para procesamiento distribuido
    • Spark
      • Marco de computación en clúster en memoria todo-en-uno para el procesamiento de datos a gran escala
      • Streaming estructurado
      • Spark SQL
      • Bibliotecas de aprendizaje automático: MLlib
      • Procesamiento de grafos con GraphX
  • Escalabilidad
    • Nube pública
      • AWS, Google, Aliyun, etc.
    • Nube privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidad automática

Elección de la solución adecuada para el problema

El futuro de Big Data

Resumen y próximos pasos

Requerimientos

  • Comprensión general de matemáticas
  • Comprensión general de programación
  • Comprensión general de bases de datos

Público objetivo

  • Desarrolladores / programadores
  • Consultores de TI
 35 Horas

Número de participantes


Precio por participante

Testimonios (7)

Próximos cursos

Categorías Relacionadas