Temario del curso
Introducción
Instalación y configuración de Dataiku Data Science Studio (DSS)
- Requisitos del sistema para Dataiku DSS.
- Configuración de las integraciones con Apache Hadoop y Apache Spark.
- Configuración de Dataiku DSS con proxies web.
- Migración desde otras plataformas a Dataiku DSS.
Resumen de las funciones y arquitectura de Dataiku DSS
- Objetos y gráficos fundamentales para Dataiku DSS.
- ¿Qué es una receta en Dataiku DSS?
- Tipos de conjuntos de datos admitidos por Dataiku DSS.
Creación de un proyecto en Dataiku DSS
Definición de conjuntos de datos para conectar con recursos de datos en Dataiku DSS
- Trabajo con conectores y formatos de archivos de DSS.
- Formatos estándar de DSS vs. formatos específicos de Hadoop.
- Carga de archivos para un proyecto de Dataiku DSS.
Resumen del sistema de archivos del servidor en Dataiku DSS
Creación y uso de carpetas gestionadas
- Receta de DSS para fusionar carpetas.
- Carpetas gestionadas locales vs. no locales.
Construcción de un conjunto de datos de sistema de archivos utilizando el contenido de carpetas gestionadas
- Realización de limpiezas mediante una receta de código de DSS.
Trabajo con el conjunto de datos de métricas y el conjunto de datos de estadísticas internas
Implementación de la receta de descarga de DSS para conjuntos de datos HTTP
Reubicación de conjuntos de datos SQL y HDFS utilizando DSS
Ordenación de conjuntos de datos en Dataiku DSS
- Ordenación al escribir vs. ordenación al leer.
Exploración y preparación de visualizaciones de datos para un proyecto de Dataiku DSS
Resumen de esquemas, tipos de almacenamiento y significados en Dataiku
Realización de scripts de limpieza, normalización y enriquecimiento de datos en Dataiku DSS
Trabajo con la interfaz de gráficos de Dataiku DSS y tipos de agregaciones visuales
Utilización de la función de estadísticas interactivas de DSS
- Análisis univariado vs. bivariado.
- Uso de la herramienta de Análisis de Componentes Principales (PCA) de DSS.
Resumen del aprendizaje automático con Dataiku DSS
- ML supervisado vs. ML no supervisado.
- Referencias para algoritmos de ML de DSS y manejo de características.
- Aprendizaje profundo con Dataiku DSS.
Resumen del flujo derivado de conjuntos de datos y recetas de DSS
Transformación de conjuntos de datos existentes en DSS con recetas visuales
Utilización de recetas de DSS basadas en código definido por el usuario
Optimización de la exploración y experimentación de código con cuadernos de código de DSS
Escritura de visualizaciones avanzadas de DSS y funciones de interfaz frontal personalizadas con Webapps
Trabajo con la función de informes de código de Dataiku DSS
Compartir elementos del proyecto de datos y familiarización con el panel de control de DSS
Diseño y empaquetado de un proyecto de Dataiku DSS como una aplicación reutilizable
Resumen de métodos avanzados en Dataiku DSS
- Implementación de particionamiento de conjuntos de datos optimizado utilizando DSS.
- Ejecución de partes específicas de procesamiento de DSS mediante cómputo en contenedores de Kubernetes.
Resumen de la colaboración y control de versiones en Dataiku DSS
Implementación de escenarios de automatización, métricas y comprobaciones para la prueba de proyectos DSS
Despliegue y actualización de un proyecto con el nodo de automatización y paquetes de DSS
Trabajo con APIs en tiempo real en Dataiku DSS
- APIs adicionales y APIs Rest en DSS.
Análisis y previsión de series temporales en Dataiku DSS
Seguridad de un proyecto en Dataiku DSS
- Gestión de permisos del proyecto y autorizaciones del panel de control.
- Implementación de opciones de seguridad avanzadas.
Integración de Dataiku DSS con la nube
Resolución de problemas
Resumen y conclusión
Requerimientos
- Experiencia con los lenguajes de programación Python, SQL y R.
- Conocimientos básicos de procesamiento de datos con Apache Hadoop y Spark.
- Comprensión de los conceptos de aprendizaje automático y modelos de datos.
- Antecedentes en análisis estadístico y conceptos de ciencia de datos.
- Experiencia en visualización y comunicación de datos.
Público objetivo
- Ingenieros.
- Científicos de datos.
- Analistas de datos.