Programa del Curso

Introducción

Comprensión Big Data

Descripción general de Spark

Descripción general de Python

Descripción general de PySpark

  • Distribución de datos mediante el marco de conjuntos de datos distribuidos resistentes
  • Distribución del cálculo mediante operadores de API de Spark

Configuración Python con Spark

Configuración PySpark

Uso de instancias EC2 de Amazon Web Services (AWS) para Spark

Configuración Databricks

Configuración del clúster de AWS EMR

Aprender los conceptos básicos de Python programación

  • Primeros pasos con Python
  • Uso de Jupyter Notebook
  • Uso de variables y tipos de datos simples
  • Trabajar con listas
  • Uso de instrucciones if
  • Uso de entradas de usuario
  • Trabajar con bucles while
  • Funciones de implementación
  • Trabajar con clases
  • Trabajar con archivos y excepciones
  • Trabajar con proyectos, datos y API

Aprendizaje de los conceptos básicos de Spark DataFrame

  • Introducción a Spark DataFrames
  • Implementación de operaciones básicas con Spark
  • Uso de operaciones Groupby y Aggregate
  • Trabajar con marcas de tiempo y fechas

Trabajar en un ejercicio de proyecto de Spark DataFrame

Descripción Machine Learning de MLlib

Trabajar con MLlib, Spark y Python para Machine Learning

Descripción de las regresiones

  • Aprendizaje de la teoría de la regresión lineal
  • Implementación de un código de evaluación de regresión
  • Trabajar en un ejemplo de ejercicio de regresión lineal
  • Aprendizaje de la teoría de la regresión logística
  • Implementación de un código de regresión logística
  • Trabajar en un ejercicio de regresión logística de muestra

Comprensión de los Random Forests y los árboles de decisión

  • Teoría de los Métodos del Árbol de Aprendizaje
  • Árboles de decisión de implementación y Random Forest códigos
  • Trabajar en un ejemplo Random Forest de ejercicio de clasificación

Trabajar con K-means Clustering

  • Comprensión de la teoría de agrupamiento de K-medias
  • Implementación de un código de agrupación en clústeres K-means
  • Trabajar en un ejercicio de agrupación en clústeres de muestra

Trabajar con sistemas de recomendación

Implementación del procesamiento del lenguaje natural

  • Comprensión Natural Language Processing (NLP)
  • Descripción general de las herramientas de PNL
  • Trabajando en un ejemplo de ejercicio de PNL

Transmisión con Spark activado Python

  • Información general Streaming con Spark
  • Ejemplo Spark Streaming Ejercicio

Palabras finales

Requerimientos

  • Conocimientos generales de programación

Audiencia

  • Desarrolladores
  • Profesionales de TI
  • Científicos de datos
  21 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (5)

Cursos Relacionados

Categorías Relacionadas